Claude Mythos: o modelo de hacking de IA bom demais para ser lançado! Supostamente

por David Gerard

O hype desta semana é o novo modelo da Anthropic — Claude Mythos! Ele foi aperfeiçoado para código de computador. Especificamente, para encontrar brechas de segurança.

A Anthropic não disponibilizou o Mythos ao público. É poderoso demais para geral!

O hype é muito idiota e tem muita gente ingênua engolindo press releases inteiros. Mas hoje, faremos apenas uma pergunta: o Mythos faz o que promete?

Chatbots conseguem encontrar falhas em código de computador, claro. Um robô pode vasculhar texto e verificar padrões. E não precisa encontrar todas as falhas — encontrar algumas já é suficiente. Se é fácil confirmar que as falhas são reais, você tem nas mãos um caro verificador estático de código.

O Mythos falha nesse segundo aspecto. Então a Anthropic manda o vômito do chatbot para humanos vasculharem em busca das falhas reais:

Selecionamos cada falha que encontramos e depois enviamos as de maior gravidade para verificadores humanos profissionais validarem antes de divulgá-los ao mantenedor [do código].

Mais uma vez, o ingrediente secreto é a AGI — A Guy Instead (na real, um cara)*. O Mythos roda à base de humanos.

A Anthropic encontrou falhas reais com o Mythos. Encontraram uma de travamento remoto de 27 anos no OpenBSD, um sistema operacional famoso por ser praticamente impossível de hackear. Encontraram alguns bugs antigos em coisas como o ffmpeg. E um exploit remoto real no FreeBSD!

Isso não é “fuzzing” — aquele processo de bombardear um programa com inputs estranhos até ele quebrar. O Mythos apenas lê o código. Mas as falhas parecem saídas de teste de fuzz. São todas esquisitas. E claro, casos raros e esquisitos são o doce delicioso da caça por exploits.

Então o Mythos não é… nada. Mas é alguma coisa? Se você ignorar todos os outros problemas reais com IA, isso é uma… ferramenta. Mas é uma ferramenta viável? Quanto custa para rodar? A Anthropic diz que encontrou o bug do OpenBSD depois de mil execuções:

Ao longo de mil execuções pelo nosso scaffold, o custo total foi de menos de US$ 20.000 e encontrou algumas dezenas de achados extras.

Não, você não pode ver os outros achados. Menos de US$ 20.000 por falha grave, hein. Se eu der US$ 20.000 para um pesquisador de segurança e disser “encontre todas as falhas que puder, grandes ou pequenas”, eu esperaria um retorno razoável.

E a Anthropic está fazendo exatamente isso:

A Anthropic convidou cerca de 40 outras organizações para participar dessa caça de falhas introspectiva, subsidiada por até US$ 100 milhões em créditos de uso para o Mythos Preview e US$ 4 milhões em doações diretas para organizações de segurança de código aberto.

um post no blog da Aisle, uma empresa de segurança computacional baseada em IA. O novo modelo Mythos da Anthropic não é a mágica aqui — a Aisle encontrou os mesmos bugs que a Anthropic listou, mas usando “modelos pequenos, baratos e de pesos abertos”. [post no blog]

O principal é: ter um framework que passe uma tonelada de código pelo seu verificador — qualquer verificador — de maneira sistemática.

E, claro, Um Cara no final para verificar se os resultados não são lixo.

A principal coisa que pode tornar os robôs verificadores de código um problema é que o código no mundo lá fora é — com bastante frequência — um grande lixão. Mesmo antes do vibe code. Então, se você quer encontrar brechas de segurança, basta verificar muito código. Mal posso esperar para apontar o Mythos para a assustadora pilha de entulho conhecida como Claude Code.

Quem disser que o Claude Mythos é um divisor de águas, quero ver o seu boleto mensal na Anthropic.

Publicado originalmente no Pivot to AI em 9/4/2026.

* Nota do tradutor: AGI, no jargão da IA, é a sigla em inglês para “inteligência artificial geral”. David brinca com essa sigla adotando-a para se referir a “a guy instead”, aludindo que muitas soluções de IA são, na real, um cara fazendo coisas remotamente e se passando de IA. A piada perde todo o sentido em português, infelizmente :(

A newsletter do Manual. Gratuita. Cancele quando quiser:

Quais edições extras deseja receber?


Siga no Bluesky, Mastodon e Telegram. Inscreva-se nas notificações push e no Feed RSS.

14 comentários

  1. O autor não entende do tema com a profundidade que ele pretende e deveria.

    Claro, existe um hype marketeiro tosco, já típico desse tipo de empresa. E é patético quando lembramos há não tanto tempo atrás, em fevereiro deste ano, quando a mesma Anthropic, ao anunciar o modelo Opus 4.6, disse coisa semelhante (‘muito perigoso liberar pro público’). E o preço exorbitante que cobram pelas ferramentas é acintoso, sem dúvida.

    Mas diminuir o impacto absolutamente disruptivo desses modelos atuais de LLM é fruto de ignorância, ou uma implicância meio infantil.

    Ontem assisti a um papo do Hank Green (um leigo) com a Sherri Davidoff (profissional da área de segurança de software). Vou deixar o link já no ponto onde efetivamente começa a entrevista, mas em síntese, segundo ela, essas modelos avançados de LLM hoje permitem que vulnerabilidades sejam descobertas pelos mal intencionados antes mesmo de serem descobertas e anunciadas publicamente, no que ela chama de ‘negative day attack’ (numa brincadeira com ‘zero day attack’, termo da área que se refere a vulnerabilidades exploradas por criminosos no dia em que são divulgadas pela mídia).

    Mais do que isso, ela diz que a IA hoje permite descobrirmos bugs e vulnerabilidades que, na prática, seriam humanamente impossíveis de serem detectados. E completa: se você, profissional da área de segurança, não está usando esses modelos avançados de IA, saiba que você está pra trás em termos de capacidade efetiva de proteger sistemas.

    Entrevista do Hank Green com ela: https://youtu.be/V6pgZKVcKpw?t=656

    Podcast dela onde fala do lançamento do Opus 4.6: https://www.chatcyberside.com/e/ai-vs-software-the-new-age-of-vulnerability-hunting/

    1. Não deixa de ser apenas uma ferramenta e nada mais. Cloud Mythos não faz milagre, sempre terá que ter revisão humana. O autor está criticando o custo deste modelo, pois precisou rodar mil análises para encontrar algumas vulnerabilidades.
      A Anthropic faz muito fuzuê para pouco resultado.

      1. > Não deixa de ser apenas uma ferramenta e nada mais. Cloud Mythos não faz milagre, sempre terá que ter revisão humana.

        Mas daí poderíamos dizer o mesmo do computador: é só uma ferramenta que sozinha não faz milagre. O que esse tipo argumento evasivo quer dizer na prática?

        > A Anthropic faz muito fuzuê para pouco resultado.

        Não sei qual a sua área de atuação, mas let me break the news for you: a Anthropic detém a LLM mais usada entre os programadores no mundo, e revolucionou como se programa. O ano 2026 será lembrado na História como um marco.

        E digo isso detestando essa empresa eticamente tosca (como todas do Vale do Silício, aliás). Só nos resta que logo seja viável rodar localmente modelos abertos e parrudos, como o GLM e DeepSeek.

        1. Ferramenta nenhuma faz milagre algum. Não há nada de disruptivo no Cloud Code, apenas gera códigos que comprometem ainda mais a nossa segurança digital caso não seja revisado por humanos.
          Isso quer dizer que humanos são perfeitos, infalíveis e não façam códigos péssimos? Não! Apenas que é necessário ser cético com essas promessas mirabolantes dessas empresas, que no fundo só te um objetivo: dinheiro.

          Não importa o quão fantástico toda essa propaganda faça parecer, tudo isso não passa de utopia e nada mais. Não fará milagre nenhum em nossas vidas.
          É muito dinheiro sendo jogado fora nessa bolha da IA pra pouco resultado prático.

    2. Pô, fulalas, zero-day não é isso aí, não. Zero-day é o que ela descreveu como “negative day” — o que, sem contexto, arriscaria dizer que foi uma hipérbole dela. Um ataque zero-day é aquele que explora uma falha desconhecida da fabricante do software e de qualquer um capaz de mitigá-la. A mídia não tem papel nessa história — exceto se publicação descobrir uma brecha não documentada sendo explorada em produção.

      Creio que dá para as duas coisas serem verdadeiras simultaneamente: o Claude Mythos tem mérito, mas está muito longe de ser “boa demais para ser liberada ao público”. Essa segunda parte é puro marketing, e do tipo mais tosco.

      1. Um ataque zero-day é aquele que explora uma falha desconhecida da fabricante do software e de qualquer um capaz de mitigá-la

        Também não é isso, hahaha! Na definição formal, ‘zero-day attack’ encontra-se dentro de uma janela de tempo de menos de 1 dia que inclui a descoberta da vulnerabilidade (não importa por quem) e o ataque. Em outras palavras, um pesquisador, hacker ou mesmo o responsável pelo software descobre uma vulnerabilidade, e o ataque que a explora ocorre em menos de 1 dia, antes mesmo de um patch de correção ser disponibilizado.

        A brincadeira da Sherri Davidoff com o ‘negative-day attack’ é que com essas LLMs sofisticadas esse intervalo está frequentemente ultrapassando 1 dia, de modo que a vulnerabilidade é descoberta e explorada por criminosos sem que a gente nem sequer fique sabendo — quando descobrimos, já passou mais de 1 que ela foi descoberta/explorada.

        1. Acho que não… Eu “colei” da Wikipédia para ter certeza do que estava falando. De lá:

          A zero-day (also known as a 0-day) is a vulnerability or security hole in a computer system unknown to its developers or anyone capable of mitigating it. Until the vulnerability is remedied, threat actors can exploit it in a zero-day exploit, or zero-day attack.

          The term “zero-day” originally referred to the number of days since a new piece of software was released to the public, so “zero-day software” was obtained by hacking into a developer’s computer before release. Eventually the term was applied to the vulnerabilities that allowed this hacking, and to the number of days that the vendor has had to fix them. Vendors who discover the vulnerability may create patches or advise workarounds to mitigate it, though users need to deploy that mitigation to eliminate the vulnerability in their systems. Zero-day attacks are severe threats.

          Não existe um período pré-fixado (1 dia, como você mencionou) para classificar um ataque de zero-day.

          1. Verdade, Ghedin! O que importa é a ordem dos eventos, e não a extensão da janela de tempo. Vivendo e aprendendo :)

  2. Eu ainda não acostumei 100% com esses posts traduzidos do Gerard, então às vezes ainda me assusto com o quanto o Ghedin, que sempre é razoável e contorlado, ficou sassy e azedo rs.

  3. Uma nota mental que me ocorreu aqui… Tô sentindo falta dos textos autorais do Ghedin. Eles têm sido publicados com menos frequência? 😶

    1. O desta semana tive que segurar a pedido de uma assessoria de imprensa a quem pedi um posicionamento. Semana passada, com feriado da Páscoa, tirei o pé do acelerador mesmo.

      O bom é que semana que vem não será um, mas DOIS textos autorais ✨