SÃO PAULO, SP (FOLHAPRESS) – A Cloudflare, uma das maiores empresas de infraestrutura de internet do mundo, acaba de tomar uma decisão que deve influenciar a disputa entre empresas de inteligência artificial e produtores de conteúdo. A companhia anunciou na terça-feira (1º) que, como regra, vai bloquear o acesso de robôs de IA em todos os sites que usam seus serviços -a não ser que o dono de cada veículo opte pelo contrário.

Robôs são comuns na internet e servem a várias funções, nem sempre maliciosas. Mas, no caso de serviços como o ChatGPT, são usados para extrair conteúdo de páginas na internet e treinar modelos de inteligência artificial, muitas vezes sem pagar por isso e também sem levar visitantes em troca para cada site.

Antes, quando usava os serviços da Cloudflare, já era possível escolher bloquear o acesso desses robôs; mas, sem uma decisão ativa, o padrão era a porta ficar aberta. Agora, vai acontecer o contrário, e cada produtor de conteúdo precisa optar por dar o sinal verde.

Ao mesmo tempo, a empresa também anunciou uma iniciativa batizada de “pay per crawl”, que vai permitir aos sites cobrarem para permitir o acesso dos robôs.

Estima-se que a Cloudflare domine 20% do tráfego da internet, o que dá uma dimensão do impacto da medida para as empresas de inteligência artificial. Já no anúncio, um grupo de veículos jornalísticos e plataformas de internet anunciou sua adesão ao novo modelo -entre eles, as revistas The Atlantic e Time, além da agência de notícias Associated Press e os sites Reddit e Pinterest.

O livre acesso ao conteúdo online foi essencial para treinar os principais modelos de IA no mercado. Mas, conforme fica mais claro que esses serviços devem substituir as plataformas de busca, analistas apontam riscos para o modelo de negócios de produtores de conteúdo.

No modelo que vigorou nas últimas décadas, os sites garantiam acesso a robôs de mecanismos de busca -como o Google-, que indexavam o conteúdo e, com isso, ajudavam as páginas a receber visitantes, numa troca considerada benéfica.

Já com a inteligência artificial, esse mecanismo tem sido subvertido, com modelos que também realizam buscas. O Google, por exemplo, lançou em maio do ano passado o serviço AI Overview: quem faz uma pesquisa no site agora vê, antes dos resultados com links, uma resposta gerada por IA para sua questão, sem necessariamente precisar clicar nos sites.

Recentemente, a empresa de tecnologia divulgou que o número de buscas que não resultam em nenhum clique saltou de 56% para 69% entre maio do ano passado e maio deste ano.

Além disso, algumas organizações têm apontado que os robôs vêm sobrecarregando seus servidores com tráfego extra, criando novos custos, sem com isso oferecer nenhum retorno significativo. Em abril, a Wikimedia Foundation divulgou um comunicado dizendo que o acesso dos robôs de IA vem atrapalhando o funcionamento da Wikipédia –segundo a fundação, 65% dos seus custos com tráfego vêm desses acessos automatizados.

“Desde janeiro de 2024, o uso de banda para baixar conteúdo multimídia cresceu 50%. Essa alta não está vindo de leitores humanos”, diz o comunicado. “O aumento de tráfego gerado por robôs é sem precedentes e apresenta cada vez mais riscos e custos.”

A mesma reclamação tem sido feita por instituições culturais, como bibliotecas e museus, que costumam ter seus acervos vasculhados por robôs, mesmo sem ter uma infraestrutura como a Wikipédia para atender a alta de tráfego. Isso tem levado alguns acervos culturais a ficar offline, segundo um relatório de pesquisadores das universidades de Exeter e de Nova York.

O avanço da IA também tem violado uma das normas éticas mais consolidadas na internet, o protocolo de exclusão de robôs. Quase todo site tem um arquivo chamado “robots.txt”, com a lista de quais robôs têm ou não têm autorização para acessar seu conteúdo. Não é uma barreira de segurança e sim um aviso, mas que costumava ser respeitado.

Costumava. No começo de junho, a revista americana Wired denunciou, após uma investigação, que robôs da Perplexity AI estavam extraindo conteúdos de seu site e de outras publicações da editora Condé Nast.

Não à toa, a questão já tem levado a diversos questionamentos na Justiça. Um dos mais notórios é o do jornal americano The New York Times, que move um processo contra a OpenAI e a Microsoft por violação de direitos autorais. O veículo acusa as duas empresas de usarem seu conteúdo para treinar chatbots sem pagar por isso.

A indústria de IA, contudo, teve duas vitórias importantes em acusações de violação de direitos autorais neste semestre.

No fim de junho, um juiz federal de San Francisco, nos EUA, decidiu a favor da Anthropic, num processo em que três escritores acusavam a empresa de usar livros sem autorização para treinar seu modelo de IA. No mesmo dia e na mesma cidade, um juiz em outra corte deu uma vitória para a Meta em um processo semelhante.

Ambos consideraram que as duas empresas faziam “uso justo” do material. No segundo caso, contudo, os escritores viram motivo para esperança: o juiz disse que sua decisão valia só para aquele caso, não como regra geral.