Lutando contra robôs de IA

Segundo as regras do capitalismo, só é pirataria se a parte (supostamente) desfalcada for uma empresa — vide os casos do Napster clássico e o trágico envolvendo Aaron Swartz. Se uma empresa se apropria da propriedade intelectual das pessoas para faturar alto, aí tudo bem, no máximo outra empresa grande a processa para ver no que dá.

A sede insaciável das big techs e startups de inteligência artificial generativa por mais conteúdo era questionável desde que descoberta. À medida em que outras empresas e pessoas donas de sites aumentam as defesas contra os robôs larápios das IAs (o número vem crescendo), os artifícios usados por elas se tornam mais eficientes e, com frequência, inescrupulosos.

Vide os casos da Perplexity, desmascarada coletando conteúdo de sites que bloqueavam explicitamente seus robôs (ou aqueles tornados públicos), ou os da Anthropic, flagrados bombardeando os sites do iFixit e do Read The Docs, gerando gastos milionários com hospedagem.

Do nosso lado, as armas para resistir ao assédio são poucas e sem garantias de eficácia, mas é o que tem.

A primeira frente de defesa é o bom e velho robots.txt, um acordo de cavalheiros que data dos primórdios da web que permite a quem tem um site declarar robôs, ou agentes não humanos, que não são bem-vindos.

Como não tem validade jurídica e depende da boa vontade dos envolvidos para funcionar, o robots.txt, um mero arquivo de texto na raiz de um site, nem sempre é o bastante. Aravind Srinivas, cofundador e CEO da Perplexity, fez questão de relembrar isso quando foi pego no pulo.

Ainda assim, vale o esforço. Este projeto no GitHub tenta manter uma lista atualizada de robôs de IAs a fim de facilitar o bloqueio deles de uma vez só.

Já o Dark Visitors é um serviço que alguém pluga a um site e passa a monitorar e listar agentes não humanos que passarem por ali. Neste Manual, por exemplo, notei a presença de robôs de consultorias de SEO, de “inteligência” e outros serviços que não gostaria que ficassem bisbilhotando o que publico.

Por fim, a Cloudflare, uma das gigantes de tecnologia na web, lançou uma ferramenta mais sofisticada de bloqueio de robôs de IAs. Há um amplo debate acerca da influência desmedida da Cloudflare sobre a web, mas no melhor espírito “se está no inferno, abrace o capeta”, não há motivos para não ligar a nova ferramenta se o seu site já estiver atrás da Cloudflare.

Nem todo robô é ruim, mas os bons estão sendo soterrados por um exército de robôs insensíveis criados por gente egoísta e desrespeitosa.

A newsletter do Manual. Gratuita. Cancele quando quiser:

Quais edições extras deseja receber?


Siga no Bluesky, Mastodon e Telegram. Inscreva-se nas notificações push e no Feed RSS.

1 comentário

  1. Essa parece ser uma daquelas brigas infinitas, como acontece entre fraudadores e sistemas de proteção e segurança. Para cada 1 que atua para criar sistema de defesa, tem 5 criando novas formas de tirar invadir proveito de forma ilícita.