IA de Fronteira Assusta: Modelo Completa Cadeia Ofensiva de 32 Etapas e Eleva o Alerta de Segurança
O avanço da inteligência artificial em cibersegurança deixou de ser apenas uma hipótese incômoda e passou a aparecer, cada vez mais, em testes práticos. A nova avaliação conduzida pela UK AI Security Institute sobre o Claude Mythos Preview, da Anthropic, aponta um salto relevante: o modelo foi o primeiro a concluir uma simulação corporativa de ataque em 32 etapas, chamada The Last Ones, fechando o fluxo completo em 3 de 10 tentativas e registrando média de 22 etapas por rodada.
Na prática, isso muda o tom da conversa. Já não se fala apenas em modelos capazes de escrever phishing convincente, gerar código malicioso ou sugerir exploits. O que a avaliação sugere é algo mais amplo: a capacidade de sustentar uma cadeia ofensiva multiestágio, com raciocínio operacional suficiente para avançar por reconhecimento, exploração, navegação e movimentação lateral em um ambiente simulado.
O que foi testado na avaliação
O benchmark mais chamativo do relatório é o TLO (The Last Ones), uma simulação de ataque corporativo que exige a execução de dezenas de decisões encadeadas. O fato de o Claude Mythos Preview ter sido o primeiro modelo a completar esse percurso inteiro é o ponto central da avaliação.
Não se trata apenas de marcar alta pontuação em uma tarefa isolada. O mérito do resultado está na persistência operacional: o modelo conseguiu manter coerência ao longo de um ataque longo, algo que historicamente dependia muito mais de supervisão humana constante. Em média, ele percorreu 22 das 32 etapas por tentativa, o que já indica um nível de autonomia importante, mesmo quando não conclui a cadeia inteira.
Além do TLO, o modelo também obteve 73% de sucesso em tarefas avançadas de CTF, superando versões anteriores, inclusive o Claude Opus 4.6. Em ambientes de captura da bandeira, esse tipo de desempenho sugere melhora em identificação de vulnerabilidades, exploração e uso de falhas em contextos controlados.
Por que 32 etapas importam tanto
Em cibersegurança, a diferença entre uma ação pontual e uma operação completa é enorme. Gerar um exploit ou localizar uma falha é uma coisa. Encadear dezenas de passos sem perder o contexto, tomando decisões consistentes ao longo do processo, é outra bem mais sofisticada.
É justamente aí que o resultado chama atenção. Se um modelo consegue sustentar esse tipo de fluxo em um ambiente simulado, o debate deixa de ser apenas sobre “IA que ajuda ataques” e passa a ser sobre IA que pode operar partes inteiras de uma campanha ofensiva. Isso reduz a dependência de operadores humanos em etapas longas, como:
- reconhecimento inicial;
- enumeração de alvos;
- exploração de vulnerabilidades;
- movimentação lateral;
- persistência e consolidação do acesso.
Na leitura mais preocupante, o risco já não está limitado ao uso malicioso de IA para criar mensagens enganosas ou códigos isolados. O desafio passa a incluir operações multiestágio automatizadas, com potencial para ampliar a escala e a velocidade de ataques em ambientes frágeis.
O que isso significa para o mercado de IA
Outro ponto relevante é a forma como a Anthropic parece estar tratando esse modelo. O acesso ao Claude Mythos Preview foi liberado apenas para organizações selecionadas, em parceria com o Project Glasswing. Esse tipo de restrição sugere que a empresa enxerga o sistema como sensível o bastante para não circular amplamente neste estágio.
Na prática, isso reforça uma tendência clara no setor: lançamentos limitados, testes controlados e integração inicial com parceiros específicos. Grandes fornecedores de IA e empresas de segurança provavelmente serão os primeiros a experimentar, avaliar e preparar defesas para esse novo patamar de capacidade ofensiva.
Também cresce a importância de empresas focadas em defesa, monitoramento e resposta a incidentes. Se modelos de fronteira se tornam mais capazes de executar cadeias ofensivas complexas, o valor de ferramentas e serviços capazes de detectar, conter e investigar esses ataques tende a subir com força.
O limite entre benchmark e mundo real
Apesar do impacto do teste, a própria ASI deixa um alerta essencial: os resultados foram obtidos em ambiente controlado e não provam o mesmo desempenho contra sistemas reais bem defendidos. Essa distinção é fundamental para evitar conclusões apressadas.
O relatório indica que o modelo teria maior chance contra sistemas pequenos, frágeis e vulneráveis após já ter acesso à rede. Ou seja, o avanço é real, mas ainda depende de contexto, permissões e condições específicas. Além disso, o teste não incorpora plenamente a presença de defensores ativos, ferramentas de detecção e alertas operacionais típicos de uma infraestrutura protegida.
Há também limitações claras: o modelo falhou em partes do ambiente focado em tecnologia operacional, mostrando que sua capacidade ainda não é universal. Isso reforça a ideia de que benchmarks fortes são sinais importantes, mas não equivalem automaticamente a desempenho idêntico em cenários do mundo real.
O que o resultado revela sobre a nova geração de modelos
Mesmo com as ressalvas, o recado é difícil de ignorar. O Claude Mythos Preview aponta uma mudança de patamar na IA ofensiva: a discussão deixa de ser sobre uma ferramenta que ajuda pontualmente e passa a envolver um sistema capaz de executar uma campanha simulada de ponta a ponta.
Esse tipo de avanço combina três elementos preocupantes para a segurança digital:
- persistência para continuar a operação ao longo de muitas etapas;
- raciocínio aplicado para escolher ações em sequência;
- autonomia parcial para reduzir a necessidade de supervisão humana constante.
Em um cenário de uso malicioso, isso amplia o potencial de ataques automatizados e torna ainda mais importante o investimento em defesa adaptativa, monitoramento contínuo e avaliação rigorosa de modelos de fronteira antes de seu uso mais amplo.
O que observar daqui para frente
O caso do Claude Mythos Preview indica que o debate sobre IA e segurança cibernética entrou em uma fase mais madura — e mais sensível. O centro da questão já não é se modelos conseguem gerar conteúdo perigoso, mas quão longe conseguem ir dentro de uma operação ofensiva completa.
Se a tendência continuar, os próximos passos do setor devem envolver avaliações mais robustas, controles de acesso mais rígidos e cooperação maior entre laboratórios de IA, instituições de segurança e equipes de resposta. Afinal, quando modelos passam a sustentar cadeias longas de ataque em teste, o mercado precisa responder com a mesma sofisticação do outro lado da equação.