A Anthropic atualizou seu modelo de IA mais avançado disponível ao público, anunciando o Claude Opus 4.8. Esta nova versão traz funcionalidades aprimoradas para o planejamento de tarefas complexas e introduz um seletor de esforço. De acordo com a empresa, trata-se de uma “melhora modesta, mas tangível” em relação à versão anterior.
Uma das mudanças mais notáveis é a maneira como o Claude Opus 4.8 lida com a incerteza. O modelo tende a apontar ativamente problemas ou limitações em suas próprias análises, uma característica que outros modelos frequentemente omitem. Testes internos indicam que esta versão tem quatro vezes menos probabilidade de cometer erros no código que gera sem mencioná-los, em comparação com o Opus 4.7.
“Treinamos todos os nossos modelos para serem honestos, por exemplo, para evitar fazer afirmações que não possam sustentar”, explicou a empresa em uma publicação em seu blog. “Os primeiros avaliadores relatam que o Opus 4.8 é mais propenso a indicar incertezas sobre seu trabalho e menos propenso a fazer afirmações sem fundamento.”
Embora possa parecer um detalhe pequeno, esta atualização visa resolver um dos desafios mais comuns da inteligência artificial. Frequentemente, modelos como ChatGPT, Gemini e o próprio Claude chegam a conclusões com pouca ou nenhuma evidência, transmitindo uma confiança que pode levar à geração de informações incorretas.
A equipe de alinhamento da Anthropic informa que o Claude Opus 4.8 alcança métricas mais elevadas em comportamento pró-social, como o respeito pela autonomia do usuário. O modelo também apresenta taxas significativamente mais baixas de comportamentos desalinhados, como engano ou cooperação em usos indevidos, quando comparado ao Opus 4.7.
Dynamic Workflows e outras novidades com o Claude Opus 4.8
Juntamente com o modelo, a Anthropic apresentou os Dynamic Workflows, que estarão disponíveis em prévia para pesquisa dentro do Claude Code. Essa funcionalidade permite o planejamento de tarefas complexas e o lançamento de centenas de subagentes em paralelo dentro de uma mesma sessão. Esses subagentes, após a execução, verificam seus resultados antes de apresentar a resposta final. A empresa cita como exemplo a capacidade do Claude Code com Opus 4.8 de gerenciar migrações em larga escala de bases de código com centenas de milhares de linhas, desde o início até a integração final.
Outra novidade introduzida no claude.ai e no Cowork é o controle de esforço. Essa função permite ajustar a intensidade do trabalho do modelo em cada resposta. Em configurações mais altas, o Claude raciocina de forma mais profunda; em configurações mais baixas, a resposta é mais rápida e consome menos da cota de uso. O Opus 4.8 vem com o nível ‘alto’ como padrão, mas pode ser escalado para ‘extra’ ou ‘max’ para tarefas complexas ou fluxos de trabalho assíncronos de longa duração.
O Claude Opus 4.8 já está disponível em todos os planos pagos e via API, com o mesmo custo de seu antecessor: 5 dólares por milhão de tokens de entrada e 25 dólares por milhão de tokens de saída. O modo rápido, que permite ao modelo operar com 2,5 vezes sua velocidade padrão, agora tem um custo três vezes menor do que em versões anteriores.
A Anthropic aproveitou o lançamento para confirmar que está desenvolvendo modelos com capacidades semelhantes às do Opus, mas com um custo menor. A empresa também planeja lançar uma nova versão do Claude Mythos, que oferecerá uma inteligência superior à do Opus. Esta última será lançada no futuro, após a criação de salvaguardas mais rigorosas para prevenir o uso indevido por hackers.
