Empresas como a do ChatGPT deveriam pagar pelas fontes de dados usadas no treinamento? O Reddit acha que sim.

O Reddit vai cobrar o acesso à sua API de empresas que treinam grandes modelos de linguagem (LLMs) usados em inteligências artificiais como o ChatGPT. “Achamos justo”, disse Steve Huffman, cofundador e CEO do Reddit.

Desenvolvedores de aplicativos e robôs e pesquisadores continuarão tendo acesso gratuito à API do Reddit.

Atualização (10h39): Ao contrário do que noticiou o New York Times, a API também passará a ser cobrada de desenvolvedores. Pelo menos é o que diz Christian Selig, criador do Apollo: “O uso gratuito da API para aplicativos como o Apollo não é algo que eles [Reddit] vão oferecer, logo, eu oferecer o uso gratuito do app provavelmente será muito difícil. É quase certo que o Apollo terá que mudar para um modelo [em que exista] apenas Apollo Ultra (leia-se: assinatura paga).”

Huffman parece entender uma ou outra coisa melhor do negócio do que seu colega do Twitter, que quebrou a API gratuita e afugentou meio que todo mundo da plataforma.

Cabe aqui um exercício que extrapole a situação do Reddit a toda a web.

O Google e outros buscadores desde sempre vasculham e processam o conteúdo de sites, mas até então havia uma relação de troca: o Google e outros buscadores “pagavam” esse acesso mandando pessoas que buscam por coisas que os sites oferecem. É algo que funciona bem. No Manual, por exemplo, a maior parte dos acessos é originada no Google.

Com as IAs, como o ChatGPT, Google Bard e Bing Chat, essa troca deixa de existir porque elas devolvem a resposta na própria página do buscador, sem que a pessoa interessada precise visitar outro site — no caso, a fonte da informação. Os buscadores viram parasitas, e… bem, no fundo, os chatbots explicitam um problema que já vinha se desenhando, conforme estes dados de 2019.

Mesmo um site pequeno, como o Manual, pode oferecer um corpus de dados significativo. (Em quase dez anos, publicamos 4,3 mil posts e 111,1 mil comentários.) Se interfaces como a do ChatGPT realmente se firmarem na rotina das pessoas, ocupando o espaço antes dedicado às pesquisas na web, prevejo dias difíceis pela frente. Via New York Times (em inglês).

Newsletter

O Manual no seu e-mail. Três edições por semana — terça, sexta e sábado. Grátis. Cancele quando quiser.

Deixe um comentário

É possível formatar o texto do comentário com HTML ou Markdown. Seu e-mail não será exposto. Antes de comentar, leia isto.

14 comentários

  1. As inteligências artificiais estão sendo alimentadas por toda a internet porque sabem que o risco disso ter consequências realmente negativas, quanto ao modelo de negócios dessas empresas, é mínimo.

    Não seria difícil criar regras para evitar páginas protegidas por copyright, por exemplo. Sites notórios de “pirataria”, como o ZLibrary, também servem de fonte. Mas nada foi feito sequer sobre o que era simples, e vai continuar assim enquanto não houver nenhum tipo de sanção à altura (ou nunca, eu diria).

    Penso no quanto isso pode mudar a web em um longo prazo. Algoritmos já se aproveitam das nossas fraquezas para manter a atenção através de um vício. Sem acessos, por que produzir conteúdo público sobre certos temas? Como essas plataformas vão continuar se alimentando? Não parece que aqueles acenos mínimos de apoio financeiro do Google e do Facebook aos sites de notícias sejam suficientes pra manter esse sistema funcionando.

    Tudo vira nicho novamente, como foi no começo? Com a diferença que consumir algo é nadar contra uma maré fortíssima de grana e inteligência. A curva de aprendizado para ~navegar é mais dura assim.

    Enxergo como inconsequente, um tiro no pé. Ou só uma corrida maluca pra ver quem ganha mercado enquanto ele ainda existe, e as consequências deixa para o futuro resolver.

  2. Toda essa questão com as IAs não pode colaborar para o aumento dos paywalls? Por exemplo, é sabido que o Github usa de sua base de milhões de projetos open source no seu produto Copilot. Daí fica a mesma questão do Manual, vale mesmo a pena eu publicar meu código no Github que será, majoritáriamente, usado para treinar uma AI? A pensar.

  3. É complexo.

    Deveria cobrar mas ao mesmo tempo hoje não se cobra em outras instâncias análogas. Uma pessoa que lê 10 artigos pra escrever um novo não precisa remunerar as fontes, muitas vezes no máximo é cobrado que coloque como referências bibliográficas. “ah mas a pessoa coloca suas próprias ideias, interpretação e cria algo novo”, e ai a gente vai entrar na seara de até que ponto algo criado por IA é de fato criado, se a ia tem opiniões, se a ia tem interpretações, etc.

    Criar algo novo se resume a tão somente aquele pedaço de texto ou imagem já ter existido exatamente igual anteriormente? Como mede originalidade numa obra?

    Na questão recente sobre a música tanto do Jay-Z quanto do Drake&The Weeknd, se a letra é nova, a melodia é nova, a batida é nova e uma IA imita a voz do artista, qual copyright foi infringido? A gente tem como medir até que ponto uma voz É a do artista e até que ponto é uma imitação? Se a imitação for de origem humana pode mas se for de IA não?

    Meu instinto diz que deveria ser remunerado mas sendo sincero eu não tenho a menor noção de que respostas você dá pra algumas dessas perguntas acima. Principalmente onde está o limite, onde fica a linha que separa. Se for só a origem (IA ou Humana) a gente pode se colocar em situações difíceis já que as IAs não criam sozinhas por enquanto. E, tal momento, isso pode virar uma espécie de criminalização de tudo que for gerado por IA?

    O caos está bem perto e talvez tenha chegado mais rápido do que estávamos preparados.

  4. O reddit cobrar para utilizarem os textos de pessoas que não recebem nada do reddit para postar não implica em enriquecimento sem causa?
    Além dessa questão, o Chatgpt e todos os softwares que o utilizam não poderiam ser pagos, deveriam ser todos gratuitos. O motivo é porque o Chatgpt não requereu autorização expressa das pessoas que criaram todos os trabalhos, chats, sites, páginas, livros e por ai vai, que foram utilizados para alimentá-lo e treiná-lo. Você não pode auferir lucro sobre produção de terceiro sem expressa autorização do mesmo.
    Essa é uma linha de fundamentação semelhante à várias ações de direitos autorais.
    Eu quero ver esse circo pegar fogo, mas primeiro precisamos de juristas qualificados trabalhando sobre esta questão, cadê os doutrinadores, onde estão os artigos? Essa situação toda é uma mina de ouro da discussão acadêmica!

    1. Existe uma “troca” entre você e o Reddit: eles fornecem a infraestrutura, ferramentas, todo o aparato técnico para que os usuários possam publicar conteúdo e interagir. As pessoas não recebem nada em termos pecuniários (financeiros), mas extraem valor dali. Isso precisa ser levado em consideração.

      Quanto ao uso, os termos do Reddit são bem claros: o conteúdo é seu, mas ao publicá-lo lá, você cede direitos ao Reddit. Transcrevo o trecho (íntegra):

      Você mantém todos os direitos de propriedade que possui sobre o Seu Conteúdo, mas concede ao Reddit a seguinte licença para usar esse Conteúdo:

      Quando Seu Conteúdo é criado com os Serviços ou enviado a estes, você nos concede uma licença mundial, isenta de royalties, perpétua, irrevogável, não exclusiva, transferível e sublicenciável para usar, copiar, modificar, adaptar, preparar trabalhos derivados, distribuir, armazenar, executar e exibir Seu Conteúdo e qualquer nome, nome de usuário, voz ou imagem fornecida em conexão com Seu Conteúdo em todos os formatos de mídia e canais atualmente conhecidos ou desenvolvidos posteriormente em qualquer lugar do mundo. Esta licença inclui o direito de disponibilizarmos Seu Conteúdo para venda, transmissão, distribuição ou publicação por outras empresas, organizações ou indivíduos que tenham parceria com o Reddit. Você também concorda que podemos remover metadados associados ao Seu Conteúdo, e você renuncia irrevogavelmente a quaisquer reivindicações e declarações de direitos morais ou atribuição com relação ao Seu Conteúdo.

      IAs gerativas são um vespeiro legal e regulatório, mas essa questão do “de quem é o conteúdo publicado nas plataformas” já está pacificado faz um bom tempo.

  5. O ‘engraçado’ é ver o pessoal do Reddit querer monetizar em cima das criações de seus usuários.

    Quando os usuários vão receber por ‘alimentar’ essas grandes plataformas?

    1. Pois é. Eu entendo a cobrança quando a coleta é feita em portais jornalísticos e blogs, já que a IA generativa estaria terceirizando os cliques direcionados a essas páginas que precisam de acessos para se manterem ativas. Mas no Reddit, onde o conteúdo é produzido unicamente por voluntários, é sacanagem. O mesmo vale pra wikis e demais redes gratuitas.

      1. Em vez de “redes gratuitas”, eu quis dizer “redes que não remuneram seus colaboradores”. Fica a correção 😬

      2. Em relação a isso, fico pensando se não seria possível essas APIs seguirem a linha do que ocorre com algumas licenças de código: cobrar de quem usa a API para gerar renda/lucro, e ser gratuito pra quem usa a API para oferecer serviços gratuitos.

        Até nisso é um pouco complicado, pois no caso de uma Wiki, como a Wikipedia, a cobrança da API poderia ser feita para reverter os valores na manutenção do serviço, sem necessariamente haver lucro.

        Mas não é uma solução simples, de qualquer modo.