SÃO PAULO, SP (FOLHAPRESS) – A revelação de que empresas de inteligência artificial americanas usaram cópias piratas também livros de brasileiros foi recebida com críticas por autores, agentes e herdeiros de espólios literários. É o caso de Laurentino Gomes, autor de best-sellers sobre a história do Brasil –a edição americana de “1808”, escrito por ele, é uma 109 obras de autores brasileiros disponível em uma base de livros piratas que Meta e Anthropic usaram para treinar seus modelos de IA.

Da esq. para a dir.: o escritor Paulo Coelho, no prédio onde mora, em Genebra; Clarice Lispector, em foto sem data; Jorge Amado, em retrato de dezembro de 1972; e Chico Buarque, em recorte de capa do disco “Chico Buarque de Hollanda”, de 1966 Niels Ackermann/Rezo; dez.72/Folhapress; Divulgação; Reprodução Montagem A imagem apresenta quatro retratos de pessoas em uma linha horizontal. À esquerda, um homem de cabelo grisalho e barba, usando óculos e uma camisa preta. Ao lado, um homem mais velho com cabelo grisalho e óculos, vestindo uma gravata e uma camisa clara. Em seguida, uma mulher com cabelo curto e escuro, usando um colar, com uma expressão séria. “O que hoje é vendido às pessoas como inteligência artificial –como se fosse uma capacidade extraordinária da tecnologia de imitar ou superar a capacidade humana– por enquanto ainda é apenas uma forma muito sofisticada, avançada e complexa de pirataria”, diz Laurentino. “Ou seja, o roubo puro e simples de conteúdo.”

Já há mais de 40 processos por violações de direitos autorais nos Estados Unidos contra empresas de inteligência artificial. As ações contra a Meta e a Anthropic estão entre as mais rumorosas, pelo fato de as duas empresas terem recorrido a cópias piratas de livros na internet para treinar chatbots. Um outro processo, contra a Microsoft, foi anexado ao primeiro por tratar das mesmas questões.

Em ambos os casos, a Justiça americana concordou que empregar os livros em si era uso justo. No da Anthropic, contudo, o magistrado viu uma violação de direitos autorais no uso das cópias piratas –e transformou o caso em uma ação coletiva, que pode gerar indenizações a autores de cerca de 7 milhões de livros.

Na terça-feira (26), a empresa comunicou à Justiça que chegou a um acordo com os autores do processo original, mas não divulgou detalhes da negociação. Agora, o juiz do caso precisa avaliar se o pacto atende de forma satisfatória os interesses da classe e validá-lo.

A Folha fez um levantamento em uma das bases de livros pirateados usada pelas empresas, a Books3, conhecida no treinamento de modelos de IA. Além de Laurentino, o conjunto tem cópias ilegais de obras de Clarice Lispector, Paulo Coelho, Chico Buarque e Raduan Nassar, entre outros –são 31 autores brasileiros em sete idiomas, no total.

Procuradas, Meta, Anthropic e Microsoft não quiseram comentar o caso.

“Os norte-americanos, que tão bem defenderam e até hoje defendem suas patentes, deveriam se empenhar mais em defender os direitos dos autores. É uma contradição do capitalismo dos EUA desrespeitar direitos autorais”, diz Laurentino, que defende que autores busquem reparação financeira em casos assim.

Já Lúcia Riff, fundadora da maior agência literária do país, se diz “chocada com a falta de vergonha dessas mega empresas”. A Agência Riff representa as obras de Rubem Fonseca, Lygia Fagundes Telles e João Cabral de Melo Neto, autores com livros na Books3.

“As edições piratas são, por definição, não confiáveis. É infinito o número de textos com autoria errada na internet. Normalizar esse uso é surreal”, diz a agente.

Presidente do Instituto Hilda Hilst e responsável pela gestão do patrimônio da autora, Daniel Fuentes diz que nunca foi procurado para licenciar a obra da escritora para o desenvolvimento de chatbots.

Ele compara a atuação das empresas de tecnologia a um trabalho de digitalização da biblioteca de Hilda que o instituto hoje desenvolve para compartilhar anotações e desenhos da escritora. “Até do ponto de vista de um acervo, que tem óbvio interesse público e não tem interesse comercial porque é uma disponibilização gratuita, a gente está limitado e pode digitalizar apenas trechos.”

Fernando Quintino, sócio do escritório CQS/FV, que atua no setor de mídia e entretenimento, diz que a lei de direitos autorais brasileira obriga as empresas de IA a obterem permissão se quiserem usar livros no treinamento de modelos de linguagem. “Se autorizada, a empresa deve revelar quais foram as obras utilizadas para gerar a obra artificial”, diz ele.

Como são ferramentas desenvolvidas por pesquisadores na academia e no setor privado, já foi mais comum que novas versões de modelos de linguagem viessem acompanhadas de artigos em que os cientistas explicavam em detalhes quais bases de dados usaram. Com o acirramento da competição nesse setor, a transparência diminuiu –a última vez que a OpenAI divulgou as bases que usou para treinar seu chatbot, por exemplo, foi com o ChatGPT-3.5. Por isso, autores que buscam reparação precisam recorrer a relatórios de modelos antigos.

O Brasil não tem “uso justo” como os EUA, que permite a utilização gratuita para pesquisa e ensino. A lei brasileira tem um rol limitado de exceções, que não inclui desenvolvimento tecnológico.

Nem a mineração de dados na internet é considerada exceção. No Brasil, qualquer uso de material protegido sem autorização pode ser violação, mesmo que não haja ciência da empresa.

“Sempre dizemos que o direito corre atrás da tecnologia. Os casos ainda são muito recentes para terem gerado jurisprudência”, diz a advogada Silvia Gandelman, que representa a obra de Jorge Amado. “Mas o direito de ‘uso justo’ americano é mais elástico, o nosso é mais estreito, somos mais influenciados pelo direito europeu nessa área.”