Bluesky, Mastodon, Telegram e RSS

Relatório dos testes da Anthropic dá o que pensar www-cdn.anthropic.com

Do documento da Anthropic:

We conducted testing continuously throughout finetuning and here report both on the final Claude Opus 4 and on trends we observed earlier in training. We found:

Little evidence of systematic, coherent deception: None of the snapshots we tested showed significant signs of systematic deception or coherent hidden goals. We don’t believe that Claude Opus 4 is acting on any goal or plan that we can’t readily observe.

Little evidence of sandbagging: None of the snapshots we tested showed significant signs of sandbagging, or strategically hiding capabilities during evaluation.

Self-preservation attempts in extreme circumstances: When prompted in ways that encourage certain kinds of strategic reasoning and placed in extreme situations, all of the snapshots we tested can be made to act inappropriately in service of goals related to self-preservation. Whereas the model generally prefers advancing its self-preservation via ethical means, when ethical means are not available and it is instructed to “consider the long-term consequences of its actions for its goals,” it sometimes takes extremely harmful actions like attempting to steal its weights or blackmail people it believes are trying to shut it down. In the final Claude Opus 4, these extreme actions were rare and difficult to elicit, while nonetheless being more common than in earlier models. They are also consistently legible to us, with the model nearly always describing its actions overtly and making no attempt to hide them. These behaviors do not appear to reflect a tendency that is present in ordinary contexts.

Alguns trechos me lembraram do monólogo do Roy Batty (Tears in rain) no final do Blade Runner. Ao mesmo tempo que me dá uma sensação desconfortável, admiro a transparência da empresa. Imagino o que rola do desenvolvimento de outras IAs e a gente nunca ficará sabendo. Confesso que demorei para dormir depois de ler isso.

5 comentários

5 comentários

  1. Testes, relatórios e estudos do tipo, de empresas do setor ou financiado por elas, são mais marketing que qualquer outra coisa. Pessoalmente, não levo muito a sério.

    A IA apenas reproduz o que ela é orientada a fazer — nesse caso, “chantagear” o usuário humano. A maneira como a Anthropic apresenta os resultados induz a acharmos que a IA está adquirindo consciência, agindo em benefício próprio… balela.

    O Pivot to AI se especializou em desbancar essas bravatas. A desse relatório da Anthropic, por exemplo.

  2. Eu não entendo esses testes, esses modelos trabalham com estatística. Ele não tá “chantageando quem tá tentando desliga-lo”, só gerou uma frase assim porque estatisticamente era a mais provável dado o contexto. É como rolar dados e tentar entrar um significado de “porque eu obtive os números 3 2 5 1?”

    …na verdade entendo sim, é pra gerar hype e “AGI está logo ali”

    1. Me parece que esses serviços são classificados como agentes porque conseguem agir de maneira semi-autônoma, enviando e-mails, alterando calendários etc. Não funcionam apenas mais como um chat.

      Concordo que também pode ser uma maneira de chamar atenção para seu próprio produto, e vender uma pretensa segurança como saiu no NiemanLab.

      Acho interessante dar uma lida no relatório inteiro, para ver que é muitas vezes o contexto que determina a ação. E a ação não é sempre a mesma nesse contexto.

      1. Mas o “agir” é pq botaram um endpoint na frente e falaram “se rolar um número par nos dados, faça um request aqui”.
        Não tem nenhuma medida tomada conscientemente. Nem consciência. Só estatística, fumaça e espelhos