Inteligência artificial no banco dos réus

Foto em close do site da OpenAI, destacando o logo da empresa, com um texto institucional embaixo, desfocado.

Um escritório de advocacia da Califórnia, processou a OpenAI e o Google por infringirem direitos autorais e a privacidade no treinamento dos seus chatbots, ChatGPT e Bard.

Em outra ação, a comediante e escritora Sarah Silverman e outros escritores processaram a OpenAI e a Meta pelo mesmo motivo. Aqui, a alegação é de que as empresas usaram cópias piratas de seus livros, de repositórios como Z-Library e Biblotik, para treinarem os algoritmos do ChatGPT e LLaMA.

No centro dos três processos está a coleta indiscriminada de quantidades enormes de textos disponíveis na internet — da Wikipédia, blogs, livros, sites jornalísticos e redes sociais, entre outros — para treinar IAs, que os reclamantes afirmam ser ilegal.

A tese é inovadora, como tudo que envolve um novo tipo de IA chamada “gerativa”. E, como sempre acontece com tecnologias inovadoras que solapam a sociedade do dia para a noite, é bem provável que outros aspectos nebulosos e contenciosos da IA acabem judicializados no futuro próximo.

Grandes modelos de linguagem, como GPT-3 e GPT-4 (bases do ChatGPT) e o PaLM 2 do Google (Bard), são “treinados” com quantidades enormes de dados, maiores que os conjuntos de dados estruturados usados anteriormente. As empresas recorrem à internet aberta para coletar dados suficientes, uma solução controversa, mas viável pela falta de regulação derivada do ineditismo da tecnologia.

As IAs gerativas de imagens, como DALL-E 2, Midjourney e Stable Diffusion, atuam da mesma maneira. Nelas, os vestígios do material que serviu de base para o treinamento são mais visíveis.

Foi graças a variações reconhecíveis da sua marca d’água em imagens geradas pela Stable Diffusion, por exemplo, que o Getty Images processou a Stability AI.

Por outro lado, a Adobe posiciona o Firefly, sua IA gerativa, como uma que respeita direitos autorais: ela foi treinada com imagens que a própria Adobe detém e obras em domínio público e disponibilizadas sob licenças abertas.

A indústria fonográfica também é terreno fértil para os novos desafios jurídicos impostos pela nova safra de IAs.

Em abril, um usuário do TikTok que atendia pela alcunha @ghostwriter877 publicou uma música intitulada “Heart on my sleeve”, cantada por uma voz sintetizada que lembrava muito a do cantor canadense Drake.

A Universal, que detém os direitos das canções de Drake, não curtiu a ideia, mas o caso não é trivial: ao contrário da pirataria, “Heart on my sleeve” não é uma música de Drake, nem interpretada por ele, logo não está protegida por direitos autorais.

Na ocasião, a gravadora emitiu um comunicado às plataformas de streaming, como Spotify, TikTok e YouTube, afirmando que elas têm “uma responsabilidade legal e ética em prevenir o uso de seus serviços de maneiras que prejudiquem os artistas”.

Para sorte das plataformas, @ghostwriter877 havia usado um “sample” no início da música que configurava infração de direitos autorais nos moldes tradicionais. A música foi derrubada.

Voltando à palavra escrita, os efeitos da guerra entre grandes detentores já se fazem sentir. O Reddit usou a extração de dados por empresas de IA como pretexto para fechar o acesso à sua API — um jeito padronizado e fácil de se trabalhar com dados da plataforma.

No início de julho, o Twitter restringiu a visualização de posts na plataforma a perfis logados e limitou a quantidade de posts que um usuário pode ver durante o dia para, segundo o próprio, “atacar níveis extremos de raspagem de dados e manipulação de sistemas”.

Outras empresas com mais jogo de cintura estão tentando levar as empresas de IA à mesa de negociação antes de declarar guerra ou acionar a Justiça. É o caso de conglomerados de mídia nos Estados Unidos, por exemplo.

Do outro lado, as empresas que trabalham com IA estão fazendo movimentos defensivos. O Google atualizou sua política de privacidade para se dar o direito de usar conteúdo acessível publicamente para treinar inteligências artificiais.

Além da via judicial, elas também estão atuando em um forte lobby junto às propostas de regulação em diversas partes do planeta.

Brasil e União Europeia já estão debatendo leis que tentarão estabelecer limites e salvaguardas à IA sem interromper seu desenvolvimento.

Na corrida pela supremacia em inteligência artificial, o maior obstáculo de empresas que se movem rápido e quebram coisas talvez sejam seres humanos de terno, gravata e leis debaixo do braço.

Este post saiu primeiro na newsletter do site. Inscreva-se gratuitamente para receber os próximos direto no seu e-mail:

Foto do topo: Jonathan Kemper/Unsplash.

Newsletter

O Manual no seu e-mail. Três edições por semana — terça, sexta e sábado. Grátis. Cancele quando quiser.

Deixe um comentário

É possível formatar o texto do comentário com HTML ou Markdown. Seu e-mail não será exposto. Antes de comentar, leia isto.