Inteligência artificial que promete igualar humanos em todas as áreas pode chegar nesta década
Álvaro Machado Dias
Neurocientista, professor livre-docente da Unifesp (Universidade Federal de São Paulo) e sócio do Instituto Locomotiva e da WeMind
O ChatGPT acaba de fazer um ano. Nenhuma tecnologia do pós-guerra nos impactou tanto em período tão exíguo. A ferramenta da OpenAI tornou-se central para a mudança de zeitgeist em curso, a qual tem, entre suas facetas, a algoritmização relacional, a reavaliação do paradigma educacional que se escora na formação de memórias por repetição e as redefinições produtivas que prometem eliminar tarefas pouco inspiradoras e também multiplicar a taxa de desemprego.
Isso explica por que a remoção e subsequente recontratação de seu CEO, Sam Altman, ganhou tanta visibilidade. Para muitos, o que está em jogo é a própria orientação do “espírito do tempo” à luz da contraposição de interesses corporativos e preocupações societárias. Conforme Ronaldo Lemos apontou: “Sam queria […] implementar produtos novos sem olhar para as consequências. Isso esbarrou no fato de a OpenAI [ser] regida por uma entidade sem fins lucrativos”.
A especulação ventilada por veículos como Reuters e The Information é que o pomo dessa discórdia corporativa de consequências societárias seja um algoritmo chamado Q* (lê-se kiu-star), que permitiria ao ChatGPT raciocinar matematicamente, planejar suas produções pela comparação de alternativas e, em sentido restrito, treinar a si mesmo.
Essas parecem competências bastante distintas entre si, mas, tecnicamente, não são. Antes mesmo do surgimento dos atuais grandes modelos de linguagem (LLMs), como o ChatGPT, algoritmos se tornaram notícia ao bateram experts em jogos como Go e Poker.
Estas vitórias são traduções diretas (1) da habilidade desses de jogar consigo mesmos, modificando suas “sinapses” em função disso e (2) da capacidade de planejar cada jogada pensando no seu impacto de longo prazo, o que contrasta com o que fazem os LLMs atuais, que têm como janela de referência futura a próxima palavra.
Vale lembrar que jogos não são apenas diversão, vício ou esporte. Eles são referências para as dinâmicas sociais de mundo real, sejam elas opositivas ou cooperativas. Em 2017, um algoritmo chamado AlphaZero precisava de apenas duas horas de treinamento para compreender o jogo e superar grão-mestres. Seis anos depois, foi superado em muito (aqui vai o ranking atualizado dos algoritmos que jogam xadrez).
Essa evolução é paralela a que se observa na modelagem de negociações, avaliação de cenários sob incerteza e na identificação de preferências, domínio no qual o TikTok domina. Por outro lado, a ausência da capacidade de converter as orientações decisórias em discurso e vice-versa limita muito o escopo dessas ferramentas.
Quando as coisas que estavam em diferentes caixinhas se juntam, não se obtém a soma linear delas, mas algo muito maior. A combinação de estratégias avançadas de jogos com a habilidade de transacionar com pessoas e com outras máquinas, formalizando o que foi estabelecido em contratos, tende a levar ao surgimento de uma nova geração de IAs discursivo-decisórias, com grande potencial no direito, em suprimentos, marketing e vendas, nas decisões de investimento e até mesmo no planejamento estratégico da alta gestão, que, como essas outras áreas, baseia-se na análise de cenários decisórios e subsequente produção de discurso.
A fonte anônima da OpenAI consultada pela Reuters ressaltou que o salto atingido leva à capacidade de resolver problemas matemáticos como um estudante secundarista. Isso é bem menos impressionante do que negociar um contrato com base em cenários alternativos, eventualmente fechando uma compra acima do preço normal, apenas para revender o produto mais caro com base em projeções acertadas sobre o comportamento do mercado. Porém, não se iluda: computacionalmente, seus fundamentos são aparentados e uma coisa deve puxar a outra.
No mundo da cognição, é dado como certo que a matemática descreve o funcionamento do mundo e que o seu domínio turbina o desempenho nas situações em que faz sentido pensar que os envolvidos estão tentando maximizar seus ganhos e minimizar suas perdas. Pode não resolver a vida afetiva, mas multiplica resultados quando as coisas são mais objetivas e sistemáticas.
Cientistas do Google vêm dizendo com toda clareza que sua próxima IA, chamada Gemini, deve ir nessa direção mais “racionalista”. Não é preciso embarcar na boataria sobre Q* para assumir que o vento sopra nesse sentido da racionalização do comportamento dos LLMs.
A tendência é convergente com a da multimodalidade, que tem entre seus objetivos a geração de filmes com qualidade de cinema a partir de instruções textuais (“prompts”), de modo a dominar essa indústria que vale em torno de US$ 100 bi/ano. Vale conhecer um ou outro concorrente.
Q* possivelmente adiciona ao ChatGPT um algoritmo de aprendizado por reforço chamado Q-learning, que traz capacidade decisória de longo prazo ao software, conferindo-lhe potencial estratégico. Assim como no caso dos algoritmos de jogos existentes, a ideia é que o aprendizado seja guiado por interações consigo mesmo, tal como leigos imaginam que faria um paciente neurológico que sofresse uma secção completa do corpo caloso, que une os hemisférios cerebrais: o hemisfério esquerdo criaria um texto, que o direito avaliaria, antes de devolver para o outro, que iria corrigi-lo e reiterar.
Mostrei como isso funciona para a TV Folha há cerca de um ano.
A nova estratégia também deve incluir um algoritmo de otimização de trajetórias chamado A*, que permite o reconhecimento prévio da melhor alternativa de ação. Trata-se de um método de busca dirigida que se aproxima do pensamento racional, tal como definido por Von Neumann e Morgestern (1944), que escreveram a principal obra do século 20 sobre o assunto.
No mundo da inteligência sintética, a expansão da sistematicidade caminha junto com a ampliação da criatividade. O avanço que torna a IA capaz de negociar contratos com excelência também a torna muito melhor na elaboração de enredos. Os impactos se dão em cascata.
A combinação de estímulos e estratégias de processamento tem como fronteira o surgimento de IAs que podem processar todo tipo de estímulo, produzindo resultados no mínimo tão bons quanto a média das pessoas e dos algoritmos especializados atualmente existentes.
Essas tecnologias inexistentes são conhecidas como inteligências artificiais gerais (AGIs) —um marco civilizatório no caminho à superinteligência (ASI), que é a IA que promete superar os maiores experts em todas as tarefas, seja para o bem ou para o mal.
Dario Amodei, CEO da Anthropic, diz que a AGI deve ser atingida em dois ou três anos; Shane Legg, fundador da Deep Mind, afirma que isso tende a ocorrer em torno de 2028. Considerando a questão de um ponto de vista estritamente técnico, acredito que tome mais tempo, dada sua dependência das competências listadas abaixo, mas não vejo razões para dizer que a AGI é uma miragem tecnológica e que seguiremos —nós, os humanos— imbatíveis em todas as áreas teóricas e artísticas.
Para além da questão técnica, é preciso considerar que toda projeção em IA que ignora as reações societárias e regulatórias tende a se revelar equivocada. É razoável supor que controvérsias adiem o surgimento da inteligência artificial geral e mesmo inviabilizem a comercialização da superinteligência. Não seria um caso isolado, vide as bombas de hidrogênio, que jamais foram usadas por país algum.
Porém, uma coisa é inegável: o debate sobre a inteligência artificial geral saiu do armário. Enquanto você lê este artigo, ele chega ao mainstream.