Primeiro o Reddit, depois o Quora e, agora, o Stack Overflow: as três empresas, criadas em cima de conteúdo gerado pelos usuários, com um forte apelo comunal, ou seja, de pessoas interagindo com pessoas, fecharam acordos com a OpenAI para fornecer esse conteúdo humano para treinar inteligências artificiais/grandes modelos de linguagem (LLMs).

É bem provável que os termos de uso dessas plataformas permitam tal atitude, mas não deixa de ser, para muitos, uma espécie de traição — piorada quando tentativas de mitigar o assalto de trabalho voluntário e desinteressado são combatidas a ferro e fogo pela plataforma.

A newsletter do Manual. Gratuita. Cancele quando quiser:

Quais edições extras deseja receber?


Siga no Bluesky, Mastodon e Telegram. Inscreva-se nas notificações push e no Feed RSS.

9 comentários

  1. O reddit conseguiu ainda ir mais além e proibir o uso de aplicativos de terceiros, matando (para mim) qualquer possibilidade de interagir com a plataforma por meio de algo que não seja o horroroso site novo deles.

    O stack overflow não vejo indo por um caminho desses, até pq a maior parte de acessos eu imagino que venha de computadores e não de aplicativos mobile. Mas, ainda assim, não vejo com bons olhos esse movimento das AIs e certamente vem coisa pior por aí…

  2. Impressionante que agem da mesma maneira, impedindo de deletar o conteúdo e banindo os usuários que protestam contra.

  3. Como estaríamos hoje se, no início, os buscadores tivessem sido impedidos de atuar?

    1. Poxa, mas essa comparação é descabida. Os buscadores indexam os sites para entregarem visitantes. IAs sugam o conteúdo do site e nem isso retornam. É um sistema predatório.

  4. Longe de mim defender mas, acredito que muito do conteúdo dessas plataformas já foram usados para treinamento sem qualquer tipo de autorização. Eu aposto um chocolate que deve ter outras empresas sem nenhum tipo de escrutínio fazendo scrapper de conteúdo na surdina para criar seus próprios modelos.

  5. Inicialmente penso o seguinte: se vão usar ferramentas colaborativas para base de treino, as empresas de IA tem o dever de fornecer o serviço gratuitamente para PFs de uso não comercial, com fornecimento de API individual com cota razoável.

  6. Uma pergunta. Como alguém com um blog pode se proteger que seu conteúdo caia nesses robôs? Só o robots.txt já é suficiente?

    1. É o que tem, mas não confio muito que o robots.txt proteja alguma coisa. A OpenAI, por exemplo, só identificou o seu crawler no final do ano passado, ou seja, já tinha feito a devassa na web inteira antes de oficializar uma maneira de bloqueá-lo.

      De qualquer maneira, é o que tem para hoje. Este repositório permite manter o seu robots.txt atualizado (é o que eu uso aqui no Manual).

      1. Infelizmente o robots.txt não é garantia de proteção:

        But robots.txt is not a legal document — and 30 years after its creation, it still relies on the good will of all parties involved. Disallowing a bot on your robots.txt page is like putting up a “No Girls Allowed” sign on your treehouse — it sends a message, but it’s not going to stand up in court. Any crawler that wants to ignore robots.txt can simply do so, with little fear of repercussions.

        Fonte: https://www.theverge.com/24067997/robots-txt-ai-text-file-web-crawlers-spiders