Dados de 1 milhão de posts do Bluesky são usados para treinar IAs

No último dia 15, o perfil oficial do Bluesky disse que “não usamos seu conteúdo para treinar IAs generativas e não temos a intenção de usá-lo”. / @bsky.app/Bluesky (em inglês)

Na noite desta terça (26), Daniel van Strien, funcionário da Hugging Face, uma espécie de marketplace de grandes modelos de linguagem (LLM), disponibilizou um conjunto de dados composto por 1 milhão de posts coletados da API do Bluesky. Ops! / @danielvanstrien.bsky.social@bsky.app, huggingface.co (ambos em inglês)

O protocolo AT, base do Bluesky, é completamente público. É por isso que ainda não é possível “trancar” um perfil. Tudo — posts, curtidas, RTs, quem segue quem — é disponibilizado em tempo real por uma API que eles chamam de “firehose”, ou mangueira de incêndio, em referência à alta vazão de dados que passa por ali.

Isso não é ruim. É graças a essa API que se pode criar aplicações criativas, análises jornalísticas e científicas e toda a sorte de coisas legais. E nem tão legais, como o conjunto de dados para treinar IAs.

Diante da repercussão, van Strien removeu o conjunto de dados do Bluesky da Hugging Face. Antes disso, o pacote estava entre os mais baixados da plataforma, ou seja, apesar de ter sido rápido, a remoção pode ter ocorrido tarde demais. / @danielvanstrien.bsky.social@bsky.app (em inglês)

O perfil do Bluesky também se manifestou. Disse que “é uma rede pública e aberta, como sites na internet”, e que estão analisando a inclusão de uma opção que permita aos usuários sinalizarem que não consentem com o uso de seus dados para o treinamento de IAs, como o famigerado robots.txt em sites. O que não garantiria qualquer coisa, visto que o robots.txt e uma opção similar no Bluesky não têm qualquer peso jurídico nem eficiência técnica. / @bsky.app@bsky.app (em inglês)

Isso não é exclusivo do Bluesky. A diferença é que outras empresas do setor fecharam suas APIs nos últimos anos para cobrarem (caro) por ela, casos do Reddit e do X, por exemplo.

Em qualquer lugar, mas ainda mais naqueles onde um terceiro controla seus dados e que não ofereça criptografia de ponta a ponta, é boa ideia considerar que tudo que for publicado, em público ou não, pode ser acessado por pessoas indesejadas em algum momento.

***

Ainda no departamento das dores de crescimento do Bluesky, na segunda (25), a União Europeia deu um puxão de orelha na startup pela falta de uma página em seu site informando o número de usuários que residem no bloco e onde fica sua sede.

O Bluesky ainda está longe do piso para ser considerado uma “plataforma muito grande” segundo o Regulamento dos Serviços Digitais (DSA, na sigla em inglês). A obrigação de expor as informações acima, porém, vale para todas as empresas que atuam na UE, disse o porta-voz da Comissão Europeia, Thomas Regnier, ao Financial Times. / ft.com (em inglês)

A newsletter do Manual. Gratuita. Cancele quando quiser:

Quais edições extras deseja receber?


Siga no Bluesky, Mastodon e Telegram. Inscreva-se nas notificações push e no Feed RSS.

2 comentários

  1. Mas, se restringirem a API, ainda não continua sendo possível captar dados que qualquer plataforma web via scraping ou regex?

  2. Esse é o tipo de coisa que não vejo como resolver sem legislação. A API ser pública é uma coisa boa, o uso do reddit piorou muito quando fechou a dele (e de quebra vendeu os dados de usuário para IA, ou seja, nem isso é garantia)