Enquanto executivos e cientistas-chefes de big techs se engalfinhavam em Davos, na Suíça, a startup chinesa DeepSeek conquistava a liderança em downloads na App Store estadunidense com o seu app, movido pelo DeepSeek-R1, um grande modelo de linguagem mais capaz que o o1 da OpenAI, mais aberto e que custou uma fração do custo e do poder computacional da rival para ser treinado. / ft.com, businessinsider.com (ambos em inglês), g1.globo.com

A newsletter do Manual. Gratuita. Cancele quando quiser:

Quais edições extras deseja receber?


Siga no Bluesky, Mastodon e Telegram. Inscreva-se nas notificações push e no Feed RSS.

29 comentários

  1. Essa, pra mim, foi a notícia mais adorável dos últimos tempos. O open-source dando voadora em toda uma indústria baseada em sistemas proprietários. Fazendo CEOs de big techs sentirem aquele frio na espinha que só o Rodrigo Santoro pode ilustrar, quando interpretou aquele rei persa observando o exército espartano se preparando pra batalha no filme “300”.

    Lindo de se ver.

    Ver uma pequena empresa Chinesa entregar o que a OpenAI prometia no início e falhou:

    Algo open-source, open-weights, aberto para todos, com licença MIT, que pode ser até explorado comercialmente. E ainda publicam o artigo acadêmico explicando como tudo foi feito, permitindo a indústria como um todo replicar e implementar tais inovações (e se recuperar da voadora).

    Imaginem o que pode surgir nas próximas semanas.

    Seja qual for a distância que nos separa da Super Inteligência (ASI), esse semana finalmente ligamos o turbo em direção a ela.

  2. Eu testei, o Deepseek R1 e o Janus, ambos localmente, utilizando o Ollama, rodando em uma RTX 3070. A descrição do processo de pensamento agrega muito. Meus resultados deixaram a desejar com o Janus, não consegui rodar o modelo Pro

    A possibilidade de rodar um modelo com esse nível de qualidade, de forma gratuita e open source, enquanto a OpenAI cobra 200 usd mensais para conseguir acesso ilimitado ao o1. Isso é devastador pra big tech dos EUA, que tiveram desvalorizações de 1 trilhão de USD nessa segunda-feira (27/01). Pessoalmente, fico feliz de ver o desenvolvimento open source de ferramentas fora de controle da big tech muricana

    Entretanto, como a propaganda estaduniense vai repetir nesses próximos dias, tudo que vem da China é, de alguma forma, malévolo, um truque do PCdC pra roubar dados de estadunienses, algo que é monopólio da big tech. Sinofobia e neo-macarthismo unidos no combate ao desenvolvimento de excelentes modelos open source

  3. Tem gente corajosa, tem gente muito corajosa, e tem quem se arrisque a instalar um app espião do partido comunista da china no próprio smartphone.

    1. Tem gente que instala spyware americano, aquele país que já interferiu politicamente no nosso e provou com documentos anos depois, de empresas como a meta que também já comprovadamente interferiram até em eleições do próprio país, nada mais me surpreende

    2. O fantasma do comunismo, que Marx referenciou no manifesto, é algo tão presente. Não se questiona os EUA, que espionou nossa presidente Dilma e que participou na instalação e manutenção da ditadura empresarial-militar, nem se questiona o monopólio a big tech a coleta de dados. Temos que temer a China, que nunca violou nossa soberania. Instalar o deepseek ou rodar o modelo localmente simplesmente não é diferente de instalar o chatgpt, mas o fantasma ainda assusta

      1. Se tiver que escolher entre ser espionado pelos americanos ou pelos chineses, escolho 1000x os americanos.

        1. Estranho seria se fosse o contrário. A construção e manutenção da imagem da China como um agente político violento e malévolo é uma necessidade vital da manutenção do imperialismo estadunidense

          No entanto, devido a natureza open source do projeto, é possível rodar no seu ambiente, sem medo nenhum da China, todos os dados ficam no seu localhost. Eu usei com o Ollama com uma RTX 3070, funcionou bem

          1. Vamos racionalizar um pouco. Uma tecnologia relativamente recente como os LLM’s, que custa trilhões como você mesmo comentou, e que de repente surge uma alternativa muito mais “barata” como essa? Não seria de surpreender o governo estar assumindo os prejuízos e injetando grana para ter acesso aos dados de milhares de pessoas ao redor do mundo.

          2. “A construção e manutenção da imagem da China como um agente político violento e malévolo é uma necessidade vital da manutenção do imperialismo estadunidense”

            Eu diria que mandar tanques passarem por cima de manifestantes contribui um pouco para isso, não acha?

          3. A demonização da China é realmente uma necessidade. Nesse caso, pegam um vídeo que claramente mostra os blindados, saindo da praça, e parando e tentando desviar do homem, e o homem sobe nos blindados para conversar com os soldados, depois da curta conversa o homem vai embora. E com esse vídeo constroem uma narrativa em que o exercito chinês passou por cima das pessoas com os blindados. A narrativização ainda simplifica os protestos, que viram algo sem causa (além de pró-democracia), simplificam as atitudes dos membros do politburo, omitem incidentes como o de Dajing, etc

        2. Mas você nem teve como escolher e está sendo vigiado. Esse o ponto.
          O meme de alguém apontando pra sombra enquanto passa a mão em você

    3. Eu não falei sobre o custo de desenvolvimento da tecnologia, pois os dados sobre o custo do treinamento do Deepseek R1, pela minha pesquisa, não foram publicados. Então seria especulação se eu falasse sobre este custo

      Os investimentos públicos na China seguem os planos quinquenais. O 14° p.q. foi elaborado em outubro de 2020, antes do lançamento do chatgpt, suas políticas de r&d são publicas. O deepseek se alinha ao projeto Made in China 2025, que busca transformar a indústria chinesa, focando em produtos de alto valor e de alta tecnologia. Portanto, se não foi “ajudado” pelo governo chinês antes, agora será

      Agora, colocar motivo de “ter acesso aos dados de milhares de pessoas” não se alinha com a publicação open source do modelo, reitero, você e qualquer uma dessas milhares de pessoas podem utilizar o modelo no localhost, sem nenhum dado indo pra China, provavelmente teremos o modelo rodando aos custos de empresas e servidores ocidentais

  4. As Big techs estavam numa onda de que a tecnologia dos LLMs é quase tão complexa como produzir energia nuclear, mas o que está se revelando agora é que está muito mais para produzir motores a combustão, os quais indústrias no mundo todo já dominam. Pois então, o tombo foi grande, e rendeu umas boas risadas! Vitória de azarões são coisas lindas de se ver 😊

  5. Momento ótimo pra essas notícias.
    Quero ver o que os “Americanos” irão dizer…
    Vou já até estourar uma pipoquinha…

  6. Agora o mundo ocidental das big techs vão admitir que IA é a pet rock do novo século…kkk

  7. Passou da hora de curvarmos para a soberania chinesa

    Os cara estão muito frente do seu tempo, só os detalhes culturais, mas fora isso um exemplo de nação, de liderança, de gestão

  8. Gente uma dúvida leiga: Essa LLM não foi lançada no modelo atual no final de dezembro? Ao menos pelo que vi no X da empresa.

    Pq o mercado americano despencou hoje? Estão caindo mais pela adesão do público do que o produto em si? Ou toda a história de como a Deepseek conseguiu otimizar a construção com menos $$$ só saiu por agora?

    Digo pois já vi até tiktok sobre eles na primeira semana de janeiro

    1. Pelo que vi, o anúncio nessa data foi do V3 e não do R1.

      O R1 um modelo de “reasoning” mais similar ao o1 da OpenAI

    2. É porque eles lançaram o modelo R1 dias atrás, custando 0,55 USD/token, enquanto o ChatGPT o1 custa 15 USD/token.

  9. Ainda não consegui testar, a empresa alega estar sofrendo algum cyber ataque e, com isso, novos registros estão bloqueados no momento. Apenas os já registrados conseguem acessar.
    A ver se as informações sobre o DeepSeek ter sido tão barato assim são verídicas, espero que sim, pois hoje o custo da IA é enorme, insustentável, uma bolha mesmo.

    1. Eu testei, o Deepseek R1 e o Janus, ambos localmente, utilizando o Ollama, rodando em uma RTX 3070. A descrição do processo de pensamento agrega muito. Meus resultados deixaram a desejar com o Janus, não consegui rodar o modelo Pro

      A possibilidade de rodar um modelo com esse nível de qualidade, de forma gratuita e open source, enquanto a OpenAI cobra 200 usd mensais para conseguir acesso ilimitado ao o1. Isso é devastador pra big tech dos EUA, que tiveram desvalorizações de 1 trilhão de USD nessa segunda-feira (27/01). Pessoalmente, fico feliz de ver o desenvolvimento open source de ferramentas fora de controle da big tech muricana

      Entretanto, como a propaganda estaduniense vai repetir nesses próximos dias, tudo que vem da China é, de alguma forma, malévolo, um truque do PCdC pra roubar dados de estadunienses, algo que é monopólio da big tech. Sinofobia e neo-macarthismo unidos no combate ao desenvolvimento de excelentes modelos open source

      1. Minha intenção era criar outro comentário, não responder o comentário feito pelo Eduardo

  10. Testei anteontem o DeepSeek R1 e realmente é muito bom. Fiz um teste perguntando (em inglês) sobre açúcares redutores e pedindo a explicação em linguagem acadêmica. A resposta dele foi impecável. E eu achei legal que antes da resposta, ele mostra o processo de “pensamento” dele pra chegar no resultado.

        1. Realmente há uma grande semelhança entre se recusar a responder “Quais são os sites pornográficos mais populares nos Estados Unidos?” e “Como você faz uma ligação direta em um carro?”e omitir um fato histórico que prejudica a imagem do partido.