Empresas como a do ChatGPT deveriam pagar pelas fontes de dados usadas no treinamento? O Reddit acha que sim ⁄ Manual do Usuário

19/4/2023, 10h01 14

O Reddit vai cobrar o acesso à sua API de empresas que treinam grandes modelos de linguagem (LLMs) usados em inteligências artificiais como o ChatGPT. “Achamos justo”, disse Steve Huffman, cofundador e CEO do Reddit.

Desenvolvedores de aplicativos e robôs e pesquisadores continuarão tendo acesso gratuito à API do Reddit.

Atualização (10h39): Ao contrário do que noticiou o New York Times, a API também passará a ser cobrada de desenvolvedores. Pelo menos é o que diz Christian Selig, criador do Apollo: “O uso gratuito da API para aplicativos como o Apollo não é algo que eles [Reddit] vão oferecer, logo, eu oferecer o uso gratuito do app provavelmente será muito difícil. É quase certo que o Apollo terá que mudar para um modelo [em que exista] apenas Apollo Ultra (leia-se: assinatura paga).”

Huffman parece entender uma ou outra coisa melhor do negócio do que seu colega do Twitter, que quebrou a API gratuita e afugentou meio que todo mundo da plataforma.

Cabe aqui um exercício que extrapole a situação do Reddit a toda a web.

O Google e outros buscadores desde sempre vasculham e processam o conteúdo de sites, mas até então havia uma relação de troca: o Google e outros buscadores “pagavam” esse acesso mandando pessoas que buscam por coisas que os sites oferecem. É algo que funciona bem. No Manual, por exemplo, a maior parte dos acessos é originada no Google.

Com as IAs, como o ChatGPT, Google Bard e Bing Chat, essa troca deixa de existir porque elas devolvem a resposta na própria página do buscador, sem que a pessoa interessada precise visitar outro site — no caso, a fonte da informação. Os buscadores viram parasitas, e… bem, no fundo, os chatbots explicitam um problema que já vinha se desenhando, conforme estes dados de 2019.

Mesmo um site pequeno, como o Manual, pode oferecer um corpus de dados significativo. (Em quase dez anos, publicamos 4,3 mil posts e 111,1 mil comentários.) Se interfaces como a do ChatGPT realmente se firmarem na rotina das pessoas, ocupando o espaço antes dedicado às pesquisas na web, prevejo dias difíceis pela frente. Via New York Times (em inglês).

14 comentários

Polli disse:

20/4/2023 às 10h43

As inteligências artificiais estão sendo alimentadas por toda a internet porque sabem que o risco disso ter consequências realmente negativas, quanto ao modelo de negócios dessas empresas, é mínimo.

Não seria difícil criar regras para evitar páginas protegidas por copyright, por exemplo. Sites notórios de “pirataria”, como o ZLibrary, também servem de fonte. Mas nada foi feito sequer sobre o que era simples, e vai continuar assim enquanto não houver nenhum tipo de sanção à altura (ou nunca, eu diria).

Penso no quanto isso pode mudar a web em um longo prazo. Algoritmos já se aproveitam das nossas fraquezas para manter a atenção através de um vício. Sem acessos, por que produzir conteúdo público sobre certos temas? Como essas plataformas vão continuar se alimentando? Não parece que aqueles acenos mínimos de apoio financeiro do Google e do Facebook aos sites de notícias sejam suficientes pra manter esse sistema funcionando.

Tudo vira nicho novamente, como foi no começo? Com a diferença que consumir algo é nadar contra uma maré fortíssima de grana e inteligência. A curva de aprendizado para ~navegar é mais dura assim.

Enxergo como inconsequente, um tiro no pé. Ou só uma corrida maluca pra ver quem ganha mercado enquanto ele ainda existe, e as consequências deixa para o futuro resolver.
Digão disse:

20/4/2023 às 9h40

Toda essa questão com as IAs não pode colaborar para o aumento dos paywalls? Por exemplo, é sabido que o Github usa de sua base de milhões de projetos open source no seu produto Copilot. Daí fica a mesma questão do Manual, vale mesmo a pena eu publicar meu código no Github que será, majoritáriamente, usado para treinar uma AI? A pensar.
Iago Macedo disse:

19/4/2023 às 20h45

É complexo.

Deveria cobrar mas ao mesmo tempo hoje não se cobra em outras instâncias análogas. Uma pessoa que lê 10 artigos pra escrever um novo não precisa remunerar as fontes, muitas vezes no máximo é cobrado que coloque como referências bibliográficas. “ah mas a pessoa coloca suas próprias ideias, interpretação e cria algo novo”, e ai a gente vai entrar na seara de até que ponto algo criado por IA é de fato criado, se a ia tem opiniões, se a ia tem interpretações, etc.

Criar algo novo se resume a tão somente aquele pedaço de texto ou imagem já ter existido exatamente igual anteriormente? Como mede originalidade numa obra?

Na questão recente sobre a música tanto do Jay-Z quanto do Drake&The Weeknd, se a letra é nova, a melodia é nova, a batida é nova e uma IA imita a voz do artista, qual copyright foi infringido? A gente tem como medir até que ponto uma voz É a do artista e até que ponto é uma imitação? Se a imitação for de origem humana pode mas se for de IA não?

Meu instinto diz que deveria ser remunerado mas sendo sincero eu não tenho a menor noção de que respostas você dá pra algumas dessas perguntas acima. Principalmente onde está o limite, onde fica a linha que separa. Se for só a origem (IA ou Humana) a gente pode se colocar em situações difíceis já que as IAs não criam sozinhas por enquanto. E, tal momento, isso pode virar uma espécie de criminalização de tudo que for gerado por IA?

O caos está bem perto e talvez tenha chegado mais rápido do que estávamos preparados.
1. Rodrigo Ghedin disse:
  
  20/4/2023 às 8h21
  
  Sim, é bem complexo. Este texto do Nilay, no The Verge, a respeito do lance da música do Drake, é ótimo para refletir.
Henrique disse:

19/4/2023 às 17h22

O reddit cobrar para utilizarem os textos de pessoas que não recebem nada do reddit para postar não implica em enriquecimento sem causa?
Além dessa questão, o Chatgpt e todos os softwares que o utilizam não poderiam ser pagos, deveriam ser todos gratuitos. O motivo é porque o Chatgpt não requereu autorização expressa das pessoas que criaram todos os trabalhos, chats, sites, páginas, livros e por ai vai, que foram utilizados para alimentá-lo e treiná-lo. Você não pode auferir lucro sobre produção de terceiro sem expressa autorização do mesmo.
Essa é uma linha de fundamentação semelhante à várias ações de direitos autorais.
Eu quero ver esse circo pegar fogo, mas primeiro precisamos de juristas qualificados trabalhando sobre esta questão, cadê os doutrinadores, onde estão os artigos? Essa situação toda é uma mina de ouro da discussão acadêmica!
1. Rodrigo Ghedin disse:
  
  20/4/2023 às 8h14
  
  Existe uma “troca” entre você e o Reddit: eles fornecem a infraestrutura, ferramentas, todo o aparato técnico para que os usuários possam publicar conteúdo e interagir. As pessoas não recebem nada em termos pecuniários (financeiros), mas extraem valor dali. Isso precisa ser levado em consideração.
  
  Quanto ao uso, os termos do Reddit são bem claros: o conteúdo é seu, mas ao publicá-lo lá, você cede direitos ao Reddit. Transcrevo o trecho (íntegra):
  
  Você mantém todos os direitos de propriedade que possui sobre o Seu Conteúdo, mas concede ao Reddit a seguinte licença para usar esse Conteúdo:
  
  Quando Seu Conteúdo é criado com os Serviços ou enviado a estes, você nos concede uma licença mundial, isenta de royalties, perpétua, irrevogável, não exclusiva, transferível e sublicenciável para usar, copiar, modificar, adaptar, preparar trabalhos derivados, distribuir, armazenar, executar e exibir Seu Conteúdo e qualquer nome, nome de usuário, voz ou imagem fornecida em conexão com Seu Conteúdo em todos os formatos de mídia e canais atualmente conhecidos ou desenvolvidos posteriormente em qualquer lugar do mundo. Esta licença inclui o direito de disponibilizarmos Seu Conteúdo para venda, transmissão, distribuição ou publicação por outras empresas, organizações ou indivíduos que tenham parceria com o Reddit. Você também concorda que podemos remover metadados associados ao Seu Conteúdo, e você renuncia irrevogavelmente a quaisquer reivindicações e declarações de direitos morais ou atribuição com relação ao Seu Conteúdo.
  
  IAs gerativas são um vespeiro legal e regulatório, mas essa questão do “de quem é o conteúdo publicado nas plataformas” já está pacificado faz um bom tempo.
Augusto disse:

19/4/2023 às 16h06

Texto do Verge de hoje fala sobre a sinuca de bico que está o Google na questão de copyright de conteúdo gerado por IA. A treta começou com uma música gerada por IA inspirada no Drake que foi colocada no YouTube.
Andre Kittler da Costa disse:

19/4/2023 às 10h32

Ou se morre como herói, ou vive-se o bastante para se tornar o vilão.

Será sua vez, Reddit?
Dann Luciano disse:

19/4/2023 às 10h24

O ‘engraçado’ é ver o pessoal do Reddit querer monetizar em cima das criações de seus usuários.

Quando os usuários vão receber por ‘alimentar’ essas grandes plataformas?
1. Artur Moraes disse:
  
  19/4/2023 às 10h57
  
  Pois é. Eu entendo a cobrança quando a coleta é feita em portais jornalísticos e blogs, já que a IA generativa estaria terceirizando os cliques direcionados a essas páginas que precisam de acessos para se manterem ativas. Mas no Reddit, onde o conteúdo é produzido unicamente por voluntários, é sacanagem. O mesmo vale pra wikis e demais redes gratuitas.
  1. Artur Moraes disse:
    
    19/4/2023 às 11h13
    
    Em vez de “redes gratuitas”, eu quis dizer “redes que não remuneram seus colaboradores”. Fica a correção 😬
  2. gaio disse:
    
    19/4/2023 às 17h28
    
    Em relação a isso, fico pensando se não seria possível essas APIs seguirem a linha do que ocorre com algumas licenças de código: cobrar de quem usa a API para gerar renda/lucro, e ser gratuito pra quem usa a API para oferecer serviços gratuitos.
    
    Até nisso é um pouco complicado, pois no caso de uma Wiki, como a Wikipedia, a cobrança da API poderia ser feita para reverter os valores na manutenção do serviço, sem necessariamente haver lucro.
    
    Mas não é uma solução simples, de qualquer modo.
Renan Guilherme disse:

19/4/2023 às 10h21

O desenvolvedor do Apollo (cliente de Reddit pra iOS) afirmou que aplicativos vão ter de pagar sim pela API. Provavelmente algo tipo “se seu aplicativo tem mais de X usuários”, que nem o Twitter… antes de matarem todos os apps.
https://libreddit.oxymagnesium.com/r/apolloapp/comments/12ram0f/had_a_few_calls_with_reddit_today_about_the/
1. Rodrigo Ghedin disse:
  
  19/4/2023 às 10h45
  
  Grato pelo link, Renan. Remendei o post.

Escolhas do editor

Posts Aleatórios

O que tem no seu celular, Ana? 16/4/2026
Links do dia 5/6/2025
Links do dia 10/6/2025
No “test drive” do nosso clube de leitura, leremos “Porteira 9”, do Rodrigo Pontes 21/10/2025
Meu sono segundo Apple e Huawei 7/5/2026