Claude Mythos Preview: a nova fronteira da autonomia ofensiva em cibersegurança
Uma nova avaliação do UK AI Security Institute (ASI) colocou o Claude Mythos Preview, da Anthropic, em um patamar que chama atenção não apenas pela precisão técnica, mas sobretudo pela autonomia operacional em cenários de ataque. Em testes controlados de cibersegurança, o modelo foi o primeiro a completar uma simulação corporativa de 32 etapas do início ao fim, concluindo a cadeia inteira em 3 de 10 tentativas. Além disso, alcançou 73% de sucesso em tarefas de nível especialista em CTFs. O resultado não prova que a IA conseguiria repetir esse desempenho em ambientes reais e bem defendidos, mas sinaliza algo difícil de ignorar: modelos avançados já estão cruzando o limiar entre “ajudar em tarefas ofensivas” e “executar sequências ofensivas complexas com pouca intervenção humana”.
Esse é o ponto central da discussão. Não se trata apenas de um modelo que identifica falhas ou sugere próximos passos. O que o ASI observou foi a capacidade de encadear múltiplas fases de um ataque: reconhecimento, exploração, movimentação lateral e progressão até um objetivo final. Em outras palavras, a diferença aqui não é incremental. Ela muda a escala do risco, porque reduz drasticamente o esforço humano necessário para coordenar uma ofensiva longa e estruturada.
Nos testes de CTF, o Claude Mythos Preview também apresentou um salto relevante. O desempenho de 73% em tarefas expert-level sugere um ganho consistente em raciocínio procedural e execução longa, e não apenas em exploração pontual de vulnerabilidades. Isso importa porque ataques reais raramente dependem de um único movimento brilhante. Eles exigem persistência, adaptação e capacidade de manter contexto ao longo de muitas etapas — exatamente o tipo de habilidade que essas avaliações começam a medir com mais clareza.
Há, porém, um detalhe essencial: a avaliação foi feita em ambiente controlado. O modelo recebeu instruções explícitas e operou a partir de um ponto em que já havia acesso ao sistema simulado. Isso é muito diferente de um ataque real completo, em que entram em cena defensores ativos, telemetria, alertas, segmentação, controles de identidade e respostas em tempo real. O próprio ASI faz questão de não extrapolar os resultados para sistemas bem defendidos.
Ainda assim, o avanço é relevante porque aponta para uma mudança estrutural na forma como o risco de IA em cibersegurança deve ser entendido. Até aqui, muito do debate se concentrava na capacidade de a IA encontrar falhas mais rápido, escrever código de exploração ou apoiar operadores humanos. Agora, a discussão sobe um degrau: modelos de fronteira parecem estar aprendendo a executar cadeias ofensivas inteiras com autonomia crescente.
Em termos práticos, isso significa que o mercado precisa rever suas premissas. Se um modelo é capaz de completar uma simulação corporativa de 32 etapas, ainda que com sucesso parcial, ele já não pode ser tratado apenas como ferramenta de assistência. Ele se aproxima de um agente ofensivo que consegue orquestrar tarefas encadeadas, memorizar estados intermediários e decidir o próximo passo de forma relativamente independente. Para equipes de segurança, isso eleva a pressão por detecção mais inteligente, resposta mais rápida e maior uso de IA defensiva para simular cenários equivalentes.
Há também um impacto claro sobre governança e acesso. A própria Anthropic passou a restringir o modelo por meio do Project Glasswing, disponibilizando-o apenas para parceiros selecionados. Esse movimento reforça uma percepção que já vinha ganhando força no setor: modelos avançados podem exigir distribuição controlada, especialmente quando a capacidade de uso ofensivo começa a ultrapassar limites considerados seguros para ampla liberação.
O contexto de mercado torna essa avaliação ainda mais importante. A participação de grandes empresas em iniciativas como o Project Glasswing indica que o setor corporativo de segurança já está sendo usado como campo de validação para modelos de fronteira. Isso tem dois efeitos simultâneos. De um lado, acelera a evolução de ferramentas de defesa, detecção e resposta. De outro, amplia a preocupação regulatória e reputacional sobre fornecedores que colocam modelos poderosos em circulação sem camadas robustas de contenção.
Ao mesmo tempo, é importante não superestimar o resultado. O próprio relatório deixa claro que os testes não capturam plenamente a complexidade do mundo real. Parte dos cenários ficou travada em segmentos voltados a OT/IT, e o desempenho mais forte parece concentrado em sistemas corporativos pequenos, vulneráveis e já comprometidos em algum nível de acesso. Em outras palavras, o modelo mostrou força em um ambiente que favorece a automação ofensiva, mas isso não equivale a afirmar que ele venceria um perímetro bem protegido, com monitoramento maduro e resposta ativa.
Essa distinção é crucial para evitar dois erros opostos: o alarmismo vazio e a complacência. O primeiro transforma um resultado de laboratório em certeza de colapso iminente. O segundo trata a avaliação como curiosidade técnica sem implicação prática. A leitura mais adequada está no meio: o teste não prova um ataque real totalmente bem-sucedido, mas evidencia que a fronteira entre assistência e execução autônoma de ofensivas está se estreitando rapidamente.
Na prática, isso muda a leitura de risco para empresas, fornecedores e equipes de segurança que já usam IA em contextos sensíveis. A preocupação não é apenas com modelos que “sabem mais”, mas com modelos que “fazem mais sozinhos”. Quando a automação passa a cobrir etapas sucessivas de uma cadeia ofensiva, o custo operacional do ataque cai, a escala potencial aumenta e o papel do operador humano pode se restringir à supervisão de alto nível.
Também por isso, benchmarks de cibersegurança tendem a evoluir. Eles deixam de medir apenas identificação de falhas ou resolução de puzzles e passam a avaliar autonomia ofensiva de ponta a ponta. Isso é especialmente relevante para o desenvolvimento de modelos de defesa, que podem usar as mesmas estruturas de simulação para testar resiliência, antecipar comportamento adversarial e treinar respostas mais robustas.
No fim, o caso Claude Mythos Preview não é a prova de que a IA já “invadiu” o mundo real. É algo talvez mais importante: a demonstração de que ela já consegue executar, sozinha, cadeias ofensivas que antes exigiam tempo, coordenação e conhecimento humano consideráveis. Essa diferença redefine o debate sobre segurança, acesso e responsabilidade. E, para o mercado, deixa uma mensagem clara — o próximo salto da IA em cibersegurança não será apenas sobre inteligência. Será sobre autonomia.