Stack Overflow, Quora e Reddit vendem conteúdo dos usuários para OpenAI ⁄ Manual do Usuário

7/5/2024, 9h33 9

Primeiro o Reddit, depois o Quora e, agora, o Stack Overflow: as três empresas, criadas em cima de conteúdo gerado pelos usuários, com um forte apelo comunal, ou seja, de pessoas interagindo com pessoas, fecharam acordos com a OpenAI para fornecer esse conteúdo humano para treinar inteligências artificiais/grandes modelos de linguagem (LLMs).

É bem provável que os termos de uso dessas plataformas permitam tal atitude, mas não deixa de ser, para muitos, uma espécie de traição — piorada quando tentativas de mitigar o assalto de trabalho voluntário e desinteressado são combatidas a ferro e fogo pela plataforma.

9 comentários

Victor disse:

8/5/2024 às 1h12

O reddit conseguiu ainda ir mais além e proibir o uso de aplicativos de terceiros, matando (para mim) qualquer possibilidade de interagir com a plataforma por meio de algo que não seja o horroroso site novo deles.

O stack overflow não vejo indo por um caminho desses, até pq a maior parte de acessos eu imagino que venha de computadores e não de aplicativos mobile. Mas, ainda assim, não vejo com bons olhos esse movimento das AIs e certamente vem coisa pior por aí…
Lee disse:

7/5/2024 às 13h47

Impressionante que agem da mesma maneira, impedindo de deletar o conteúdo e banindo os usuários que protestam contra.
JoBlota disse:

7/5/2024 às 12h30

Como estaríamos hoje se, no início, os buscadores tivessem sido impedidos de atuar?
1. Rodrigo Ghedin disse:
  
  7/5/2024 às 13h41
  
  Poxa, mas essa comparação é descabida. Os buscadores indexam os sites para entregarem visitantes. IAs sugam o conteúdo do site e nem isso retornam. É um sistema predatório.
Pedro disse:

7/5/2024 às 10h33

Longe de mim defender mas, acredito que muito do conteúdo dessas plataformas já foram usados para treinamento sem qualquer tipo de autorização. Eu aposto um chocolate que deve ter outras empresas sem nenhum tipo de escrutínio fazendo scrapper de conteúdo na surdina para criar seus próprios modelos.
Miguel disse:

7/5/2024 às 10h24

Inicialmente penso o seguinte: se vão usar ferramentas colaborativas para base de treino, as empresas de IA tem o dever de fornecer o serviço gratuitamente para PFs de uso não comercial, com fornecimento de API individual com cota razoável.
Bigode disse:

7/5/2024 às 10h11

Uma pergunta. Como alguém com um blog pode se proteger que seu conteúdo caia nesses robôs? Só o robots.txt já é suficiente?
1. Rodrigo Ghedin disse:
  
  7/5/2024 às 13h34
  
  É o que tem, mas não confio muito que o robots.txt proteja alguma coisa. A OpenAI, por exemplo, só identificou o seu crawler no final do ano passado, ou seja, já tinha feito a devassa na web inteira antes de oficializar uma maneira de bloqueá-lo.
  
  De qualquer maneira, é o que tem para hoje. Este repositório permite manter o seu robots.txt atualizado (é o que eu uso aqui no Manual).
  1. chronus disse:
    
    11/5/2024 às 7h59
    
    Infelizmente o robots.txt não é garantia de proteção:
    
    But robots.txt is not a legal document — and 30 years after its creation, it still relies on the good will of all parties involved. Disallowing a bot on your robots.txt page is like putting up a “No Girls Allowed” sign on your treehouse — it sends a message, but it’s not going to stand up in court. Any crawler that wants to ignore robots.txt can simply do so, with little fear of repercussions.
    
    Fonte: https://www.theverge.com/24067997/robots-txt-ai-text-file-web-crawlers-spiders

Escolhas do editor

Posts aleatórios

Uma olhada no iPhone 16e fabricado no Brasil 24/4/2025
Liquid Glass 25/9/2025
A face do risco: o rosto como senha 23/5/2025
Oto Music, o melhor tocador de mp3 para Android 15/1/2026
Conversa do livro “Orbital”, de Samantha Harvey 7/2/2026