Os dados são de uma análise da Originality.ai
Levantamentos mostram que mais de 15 entre os 100 sites mais acessados bloquearam o GPTBot, robô da OpenAI responsável por coletar conteúdo. Nessa lista, estão Amazon, New York Times, CNN e outros.
O ChatGPT é capaz de responder inúmeras perguntas com uma precisão razoável. Já que foi treinado com grandes quantidades de texto, como livros, artigos e também sites. Estes últimos, no entanto, parecem bem preocupados.
Os dados são de uma análise da Originality.ai, empresa especialista em conferir se um conteúdo tem geração pela inteligência artificial ou foi um plágio.
Entre os 100 sites mais acessados da internet, pelo menos 15 já bloquearam o robô. Já entre os 1000 mais acessados, mais de 70 tomaram esta mesma medida.
Entre os mais de 1000 sites que estão bloqueando o GPTBot, estão nomes famosos, como:
- Amazon
- The New York Times
- CNN
- Wikihow
- Shutterstock
- Quora
- Bloomberg
- Scribd
- Reuters
- Ikea
- Airbnb
- Coursera
ChatGPT e outras IAs são acusadas de violar copyright
Bloquear o robô da OpenAI é uma forma de impedir o uso de conteúdo protegido por direitos autorais.
“Propriedade intelectual é a força vital dos nossos negócios. E precisamos assim, proteger os direitos autorais do nosso conteúdo”, declarou uma porta-voz da agência de notícias Reuters à reportagem do jornal The Guardian.
Já o New York Times atualizou os termos de serviço para incluir um item que proíbe a raspagem do conteúdo para treinamento e desenvolvimento de inteligências artificiais.
Este é um tema em debate desde o lançamento do ChatGPT e outras ferramentas de inteligência artificial generativa.
O banco de imagens Getty Images, por exemplo, processou os criadores do Stable Diffusion por treinar a IA com fotografias protegidas por copyright. Algumas das criações da ferramenta mostram até mesmo a marca d’água da Getty.
Desse modo, escritores tomaram caminho parecido e processaram a OpenAI. Enquanto uma ação coletiva foi movida contra Microsoft, GitHub e OpenAI por desrespeitar licenças de atribuição de códigos abertos usados no treinamento das ferramentas.
Sites também bloqueiam crawler de arquivo público
O GPTBot é o “crawler” da OpenAI. Este nome se designa a robôs que “rastejam” pela web indexando e coletando informações. Google e Bing, por exemplo, têm os seus, que catalogam as páginas da internet para mostrar resultados de buscas.
A ideia da OpenAI é coletar informações para treinar o modelo de linguagem em larga escala que faz o ChatGPT funcionar.
O GPTBot teve seu anúncio, originalmente, no começo de agosto de 2023. A OpenAI também disponibilizou, entretanto, informações sobre como os sites poderiam impedir que ele coletasse conteúdo. Pois basta remover a permissão no arquivo robots.txt ou bloquear o IP.
Alguns (mas não todos) sites da lista também bloquearam o CCBot. Bem como, crawler da organização sem fins lucrativos Common Crawl, cujo objetivo é criar arquivos públicos, para qualquer um acessar.
Parte dos dados usados no treinamento do ChatGPT — e também dos modelos do Google e de outras empresas — vem da Common Crawl.