Como as gigantes de tecnologia dão um jeitinho para coletar dados para IA

O New York Times publicou uma reportagem bombástica mostrando como, nos bastidores, as grandes empresas de IA dão um jeitinho (às vezes ilegal) de obter conteúdo para treinar seus grandes modelos de linguagem, base das IAs generativas.

A parte mais engraçada é o Google fazendo vista grossa para a OpenAI raspando 1 milhão de horas (!) de vídeos do YouTube para transcrever e alimentar o GPT-4 porque o próprio Google estava fazendo o mesmo para o Gemini. (A prática viola os termos de uso do YouTube.)

Detalhe: dois dias antes, o CEO do YouTube, Neal Mohan, disse à Bloomberg (sem paywall) que o uso de vídeos pela OpenAI para treinar a Sora seria contra as diretrizes da plataforma.

A newsletter do Manual. Gratuita. Cancele quando quiser:

Quais edições extras deseja receber?


Siga no Bluesky, Mastodon e Telegram. Inscreva-se nas notificações push e no Feed RSS.

1 comentário

  1. “All your base are belong to us” + “too big to jail”