Na melhor tradição do Vale do Silício de pedir desculpas em vez de por favor, no início de agosto a OpenAI disponibilizou um documento ensinando a barrar o robô deles de acessar um site.
Ótimo, mas só agora? Depois de a empresa sugar toda a web para treinar seus grandes modelos de linguagem (todas as versões do GPT)?
Inteligências artificiais gerativas, como o ChatGPT, são, em essência, imitadores descerebrados daquilo que seus donos enfiaram no modelo. Você reúne e processa uma tonelada de conteúdo (em geral, alheio) e o robô vomita frases que aparentam (e, com frequência, fazem) sentido, ainda que incorretas ou fantasiosas.
Quem tem sites não ficou muito contente de ver seu material apropriado por uma empresa com fins lucrativos e ambições megalomaníacas, cujo objetivo é, entre outros, substituir esses mesmos sites por chatbots.
Em alguns sites muito grandes, como Reddit e Twitter, digo, X, o sucesso avassalador do ChatGPT juntou-se à ganância de executivos para servir de bode expiatório à tomada de decisões hostis aos usuários, como fechar APIs públicas e destruir aplicativos de terceiros.
A OpenAI, mais uma vez, muda de postura no momento em que tem a dianteira de uma questão sensível à concorrência do setor de IA — a mesma estratégia do seu lobby em regulação.
No documento, a empresa diz que seu “crawler” (o tipo de robô aspirador de conteúdo alheio) já filtra páginas que contêm informações pessoais identificáveis, como se isso fosse trivial ou garantido. Diz, ainda, que “permitir que o GPTBot acesse seu site pode ajudar os modelos de IA a se tornarem mais precisos e melhorar suas capacidades gerais e segurança”. Ótimo, mas para quem?
Para bloquear o crawler da OpenAI, inclua essas linhas no arquivo robots.txt
na raiz do domínio:
User-agent: GPTBot
Disallow: /
Se a OpenAI vai respeitar isso? Impossível saber. Quem tem dinheiro e mais coisas em jogo não confia na benevolência de Sam Altman e companhia e, em vez disso, convocou uma legião de advogados para levar a discussão à Justiça.
É o caso do maior jornal do mundo, o norte-americano New York Times, que cogita processar a OpenAI.
Certos problemas ainda se resolvem melhor com os bons, velhos e falhos seres humanos.
É só isso? Não tem que mencionar nada, nem fazer menção ao robots.txt no html?
O
robots.txt
é lido pelos crawlers automaticamente. Não precisa fazer referência a ele no HTML.Em um servidor de testes aqui estava para bloquear todos os bots assim:
User-agent: *
Disallow: /
e o ChatGPT não respeitava isso, tava cheio de requisições do GPTBot/1.0 no log, então para garantir coloquem explicitamente uma linha com o GPTBot.
Espero por uma opção que me permita solicitar a remoção dos dados sugados do meu site.
Para efeito de esclarecimento, este documento não é novo, apesar de eu não saber quando foi divulgado. Pesquisei faz uns dois meses e já estava lá. Algo como “how to block openai crawler”
Curiosamente, abrindo a página que você informou (https://platform.openai.com/docs/gptbot) e usando a busca por “gptbot”… NÃO ENCONTRA.
Em tempo, o que eu tinha pesquisado foi https://geekflare.com/stop-chatgpt-plugins-from-scraping-website/ (artigo de 25/06/2023), e a referência ao nome do bot é diferente.
Em tempo… aqui um artigo de fevereiro ensinando a bloquear via IP, já atualizado com este último recurso via robots.txt.
https://www.searchenginejournal.com/how-to-block-chatgpt-from-using-your-website-content/478384/#close
Ainda em tempo, este era o bot “antigo” (curiosamente dá para encontrar na busca da documentação):
https://platform.openai.com/docs/plugins/bot