Empresas de inteligência artificial pulam regras e pegam conteúdo na web sem pedir autorização

Fonte: CenárioMT

Atualização do Gmail pode trazer riscos significativo para milhões de usuários
Créditos: Kingston

Empresas de inteligência artificial (IA) estão contornando as regras de acesso a sites para coletar conteúdo sem autorização, de acordo com a TollBit, startup de licenciamento de conteúdo. Essa prática gera conflitos entre as empresas de IA e os donos dos sites, como a acusação da Forbes contra a Perplexity de plágio de conteúdo investigativo.

Uma carta da TollBit revela que diversas IAs ignoram o protocolo robots.txt, padrão utilizado para bloquear o acesso de robôs a partes específicas de um site. A análise da empresa indica um padrão de descumprimento generalizado, onde várias IAs utilizam dados para treinar seus algoritmos sem autorização. A startup de busca por IA, Perplexity, é acusada pela Forbes de usar reportagens investigativas em resumos gerados por IA sem atribuição ou permissão adequada. A Perplexity não comentou as acusações.

Criado em meados da década de 1990, o protocolo robots.txt tinha o objetivo de evitar a sobrecarga de sites por robôs de busca. Apesar de não ter força legal, era tradicionalmente respeitado. Agora, editoras tentam usar esse protocolo para bloquear o uso não autorizado de conteúdo por sistemas de IA, que pegam trechos para treinar seus algoritmos e gerar resumos.

“Isso significa que agentes de IA de várias fontes estão optando por ignorar o robots.txt para coletar conteúdo dos sites”, escreveu a TollBit. “Quanto mais dados analisamos, mais esse padrão fica evidente.”

Alguns meios de comunicação, como o New York Times, processaram empresas de IA por violação de direitos autorais. Outros optaram por negociar acordos de licenciamento. Esse debate em curso evidencia a discrepância de valores e a legalidade do uso de conteúdo para treinar IAs generativas. Muitos desenvolvedores de IA argumentam que o acesso gratuito ao conteúdo não viola nenhuma lei, a menos que seja pago.

Empresas de inteligência artificial ignoram regras e pegam conteúdo na web sem autorização
Créditos: Has Data

A questão ganhou importância com a popularização dos resumos de notícias gerados por IA. A ferramenta de IA do Google, que gera resumos para consultas de pesquisa, aumentou a preocupação dos editores. Para impedir o uso de seu conteúdo pela IA do Google, as editoras recorrem ao bloqueio via robots.txt, mas isso remove o conteúdo dos resultados de pesquisa e prejudica a visibilidade online. Diante da ignorância das IAs pelo robots.txt, qual o sentido para os donos de conteúdo se prejudicarem dessa forma?

A TollBit também tem interesse nesse mercado de conteúdo editorial e IA, posicionando-se como intermediária entre empresas de IA e editoras para auxiliar na criação de acordos de licenciamento de uso de conteúdo. A startup monitora o tráfego de IA em sites de editoras e fornece análises para negociação de taxas por diferentes tipos de conteúdo, incluindo premium. A TollBit afirma ter 50 sites usando seus serviços em maio, mas não revelou os nomes.

A crescente utilização da inteligência artificial (IA) para coletar e processar informações da web gerou um conflito entre empresas de IA e donos de conteúdo. De um lado, as empresas de IA argumentam que o acesso livre à informação é fundamental para o desenvolvimento da tecnologia, enquanto do outro, os donos de conteúdo defendem seus direitos autorais e a necessidade de controle sobre como seus materiais são utilizados.

O futuro da relação entre conteúdo e IA dependerá da capacidade de encontrar um equilíbrio entre o desenvolvimento tecnológico e a proteção dos direitos autorais. A busca por soluções inovadoras e responsáveis é crucial para garantir que a IA contribua para o progresso da sociedade sem comprometer os interesses dos donos de conteúdo.

Este é um tema complexo e em constante evolução, com implicações importantes para o futuro da tecnologia, da informação e da sociedade como um todo. Acompanhar os debates e buscar soluções inovadoras é fundamental para garantir que a inteligência artificial seja utilizada de forma responsável e benéfica para todos.