SÃO PAULO, SP (FOLHAPRESS) – Um novo padrão poderá dar a sites de empresas de mídia, criadores de conteúdo e bases de dados uma camada extra de proteção contra o uso não remunerado de suas produções no treinamento de ferramentas de inteligência artificial.
Disponível a todos os publicadores, o Really Simple Licensing (RSL) altera o padrão binário do robots.txt, que diz sim ou não para os conteúdos passíveis de raspagem em cada site. A raspagem é o nome dado a uma coleta sistematizada de dados visíveis e invisíveis de um site.
Em um portal de notícias, por exemplo, a ferramenta de treinamento de IA puxa raspa o conteúdo de reportagens. Em um site de um órgão do governo, coleta os dados estatísticos hospedados ali.
Com o novo modelo, os sites poderão incluir monetização, que pode ser do tipo “pay-per-crawl” (pagamento por raspagem) e “pay-per-inference” (pagamento por uso do conteúdo em respostas de IA).
Por trás do desenvolvimento do novo padrão estão grupos como Reddit, People Inc, Yahoo!, Ziff Davis, WikiHow, Quora, O’Reilly Media e Medium.
Além de dar uma resposta econômica ao uso de conteúdo, o novo padrão pode reduzir as tensões entre gigantes de IA e grupos de mídia, muitos deles hoje em litígio contra os controladores dessas ferramentas como é o caso de Folha e The New York Times.
A Folha de S.Paulo entrou com uma ação judicial contra a OpenAI requerendo que a dona da plataforma do ChatGPT pare de coletar e usar, sem autorização e pagamento, o conteúdo do jornal.
Antes, o New York Times também havia processado a OpenAI e a Microsoft por violação de direitos autorais, alegando que milhões de textos estão sendo usados pelas empresas de inteligência artificial sem o pagamento de direitos autorais.
OpenAI e Google foram procurados, mas não responderam. A Microsoft disse que não comentaria.
Para Daniel Bichuetti, especialista em IA e tecnologia e CEO da Forlex, o RSL cria um ecossistema de benefícios mútuos diretos e indiretos para publicadores, para empresas de IA e para os usuários finais. A esses últimos, deve haver a melhora no nível de confiança nas respostas geradas por IA e “com menor propensão a ‘alucinações'”, afirma.
Ele vê vantagens também para empresas menores, que passam a ter condições de negociar coletivamente. Para a consultora de IA para negócios Victoria Luz, o modelo dá a pequenas empresas maior poder de barganha.
Enquanto grandes companhias de mídia como Wall Street Journal e Financial Times já fecharam acordos de conteúdo com empresas de IA, as pequenas não têm, hoje, o mesmo nível de acesso.
Na prática, o que o RSL disponibiliza aos publicadores é a possibilidade de criar novas respostas durante a raspagem de dados para o treinamento. Além do sim ou não, o modelo permite que um publicador indique, por exemplo, “sim, sob pagamento” ou “sim, com a citação da fonte”.
Victoria ressalva que o protocolo atual do robots.txt já definia o que poderia ou não ser usado no treinamento das ferramentas de IA. “A leitura das empresas é a de que essas limitações já tinham sido desrespeitadas nesses processos de treinamento. Agora, [com o RSL] há uma camada extra.”
Para o novo modelo ser efetivo, porém, é necessário “que essas empresas de inteligência artificial se comprometam com essa governança”, diz Victoria.
Ela avalia ainda que o lançamento do RSL poderá demandar um novo “equilíbrio de forças” em um momento em que diversos países, o Brasil um deles, discute a regulamentação dessas ferramentas e o uso de conteúdos protegidos por direitos autorais. O projeto de lei 2.338 foi aprovado no Senado em 2024 e agora tramita na Câmara.
Um risco do modelo que exige a remuneração pelo conteúdo, na avaliação de Victoria Luz, é a criação de um novo custo para ferramentas que são gratuitas.
“Se a gente coloca pagamento associado a todo tipo de conteúdo, esses modelos vão ficar extremamente caros e inviáveis para a grande maioria”, afirma. “Esses modelos [de IA] precisam de dados suficientes e gratuitos para que sejam treinados e para que esse custo não seja repassado ao usuário. Esse é o principal ponto de atenção.”
Luis Molla Veloso, líder de produtos na Vindi, afirma que, com o padrão de governança trazido pelo RSL, é possível que, a médio e longo prazo, haja justamente na disponibilidade de dados abertos ou gratuitos na internet, “já que parte desse conteúdo poderá ficar protegido por licenciamento.”
No site oficial do novo modelo, Tim O’Reilly, CEO da O’Reilly Media e integrante do conselho técnico do RSL, afirma que as regras para sistemas de inteligência artificial precisam evoluir.
Em entrevista ao jornal O Globo, Nicolas Robinson Andrade, diretor da OpenAI para a América Latina, afirmou que a empresa se opõe ao pagamento de direitos autorais previsto no projeto de lei na Câmara e compara a remuneração para autores de conteúdo jornalístico, artístico e literário a impostos sobre cadeiras.
“É como se o Brasil se tornasse o único país do mundo a taxar a fabricação de cadeiras. Aí é natural que as fábricas de cadeiras no futuro não sejam construídas aqui.”