SÃO PAULO, SP (FOLHAPRESS) – Um artigo de pesquisadores da Nvidia, publicado recentemente, lançou um vaticínio: “Os pequenos modelos de linguagem (SLMs), mais do que os modelos grandes (LLMs), são o futuro dos agentes de inteligência artificial”.

Os cientistas da empresa fabricante de chips argumentam que, para tarefas repetitivas e específicas, os modelos menores são potentes o suficiente, mais adequados e mais econômicos do que os LLMs. O artigo traduz bem o atual momento do mercado de IA, em que empresas buscam soluções do tipo em busca de mais eficiência e menores custos.

Os modelos grandes, como o ChatGPT, é claro, continuam a ser a força motriz do setor, que se baseia em ganho de escala —com os serviços de IA generativa movidos a quantidades colossais de dados e poder computacional.

Até o momento, essas ainda são as principais ferramentas para criar agentes ou sistemas de agentes. Mas as vantagens dos SLMs ficam cada vez mais claras e correm nas principais previsões sobre esse mercado.

Para fazê-los funcionar, por exemplo, é possível usar chips menos poderosos do que as custosas GPUs (unidades de processamento gráfico) da Nvidia, apelando a hardware mais simples —o que torna possível até mesmo rodar os modelos em dispositivos como um celular ou carros autônomos.

“Ainda que os LLMs ofereçam fluência conversacional impressionante, a maioria das sub-tarefas que os sistemas de agentes precisam cumprir são repetitivas, específicas e não conversacionais —o que pede modelos eficientes, previsíveis e baratos”, escrevem os pesquisadores da Nvidia.

Em outras palavras: um agente criado para resolver alguma tarefa de escritório não precisa saber física quântica ou literatura francesa, como é o caso dos modelos generalistas. Ao serem treinados com dados especializados, o risco de erros ou alucinações também cai, segundo especialistas.

Não há uma definição geral do que configura um LLM ou SLM, mas tudo se resume ao número de parâmetros, as configurações numéricas que fazem cada robô entender os dados em seu sistema. Os modelos grandes costumam ter centenas de bilhões de parâmetros, enquanto os menores ficam na casa das dezenas de bilhões ou mesmo nos milhões.

Um estudo recente de pesquisadores da Universidade Federal de Minas Gerais e da Universidade Federal de São João del Rei comparou diferentes modelos. E, embora os LLMs, possam ser de 7% a 26% mais efetivos do que os SLMs, eles conseguem esse resultado com custos computacionais muito maiores.

Os modelos menores, por sua vez, ganham em velocidade —eles são até 590 vezes mais rápidos. Esse dado, também chamado de latência, é crucial, já que existem aplicações que precisam de respostas em tempo real.

Além disso, o tamanho menor também permite, em tese, que o modelo ofereça funcionalidades offline, já que ele poderia realizar tarefas localmente em cada dispositivo, sem precisar enviar dados para a nuvem. Tudo isso ainda cria a possibilidade de levar a IA a regiões com maiores dificuldades econômicas.

Mesmo gigantes do mercado de IA vêm desenvolvendo modelos menores. O Google, por exemplo, tem a família de modelos Gemma, considerados um marco dessa virada e criados com a mesma pesquisa e tecnologia do Gemini. Há versões, como o Gemma2B, com 2 bilhões de parâmetros.

O cenário se repete em outras empresas: a Microsoft tem os modelos da família Phi, enquanto a Nvidia tem aqueles da família Nemotron-Nano, para ficar em alguns exemplos.

O estudo recente “State of the Art and Future Directions of Small Language Models”, de um grupo de pesquisadores da Itália, mostrou que o número de publicações acadêmicas sobre SLMs era quase nulo antes de 2023; e, de lá para cá, agora estão na casa das dezenas por ano.

A tendência no mercado não é de um tipo de modelo substituindo o outro. Para Bruno Garcia, gerente de dados e inteligência artificial da IBM, o cenário é de convivência entre diversos modelos, a depender de cada objetivo que se tenha.

“Faço analogia com um time: nem tudo a gente resolve com um modelo só e nem sempre determinado modelo é o ideal”, diz ele. “Há modelos que trabalham melhor com texto, imagem, som, vídeo… Cada um vai ser especialista em algo.”

Garcia acredita que o mercado de IA deve buscar cada vez mais eficiência —e isso pode se refletir no tamanho dos modelos.

“É mais ou menos o que vivemos com os computadores do passado. Guardadas as devidas proporções, antes um computador ocupava uma sala; hoje, o recurso de hardware tem mais computação embarcada que o foguete que levou o homem à lua”, afirma. “A tendência é que os modelos ganhem eficiência.”

Os LLMs, obviamente, não são dispensáveis. Se existe uma aurora dos SLMs, isso só acontece porque antes os modelos maiores ganharam proeminência e promoveram o avanço tecnológico desse campo.

Além disso, é até possível criar um SLM do zero, mas o método comum usa os modelos grandes no treinamento dos menores —uma das principais ferramentas para isso é a destilação de LLMs.

“Isso significa que não necessariamente é mais barato, porque várias vezes você precisa do modelo grandão primeiro”, diz Lucas Smaira, chefe de pesquisa da VettoAI e ex-pesquisador do Google Deepmind.

Ele também não acredita em um cenário no qual os SLMs substituiriam os gigantes. Embora eles sirvam para resolver questões de produtividade, a pesquisa de ponta com foco em saltos tecnológicos envolve necessariamente os modelos mais ambiciosos.

“Substituir todo o trabalho de escritório não faz sentido economicamente, porque aí não haveria gente com dinheiro para gastar. A única coisa que faz sentido economicamente é desbravar tecnologia nova, e esse é o objetivo desse ‘boom’. Os LLMs vão continuar sendo a coisa mais difícil e valiosa, talvez só fiquem longe do consumidor por um tempo”, afirma.