14 Mai 2026 5 min de leitura News

Claude Code /goals separa executor e avaliador para agentes de IA confiáveis

Photo on Unsplash

Um agente de migração de código termina sua execução. O pipeline aparece verde. Dias depois, descobre-se que vários módulos nunca foram compilados. Não é erro de modelo — é um agente que decidiu que havia terminado antes da conclusão real.

O problema da parada prematura em agentes de IA

Esse cenário, cada vez mais comum em pipelines de IA empresariais, expõe uma fragilidade estrutural nos agentes contemporâneos: delegar ao mesmo modelo que executa a tarefa o julgamento sobre quando ela está completa. A Anthropic acaba de lançar uma resposta direta a esse problema com o recurso /goals no Claude Code — uma separação formal entre quem trabalha e quem avalia.

O que aconteceu

A Anthropic disponibilizou no Claude Code o comando /goal, que introduz um modelo avaliador independente no loop de execução do agente. O desenvolvedor define uma condição de sucesso por meio de um prompt (por exemplo, "/goal todos os testes em test/auth passam e o lint está limpo"). A partir daí, o Claude Code executa a tarefa normalmente, mas a cada tentativa do agente de declarar a tarefa como concluída, um modelo separado — por padrão, o Haiku (modelo menor e mais barato da Anthropic) — verifica se a condição foi realmente atendida.

Se a condição não é satisfeita, o agente continua executando. Se é satisfeita, o avaliador registra o cumprimento no histórico da conversa e limpa o objetivo. O avaliador toma apenas uma decisão binária: pronto ou não pronto. Por isso, um modelo pequeno como o Haiku é suficiente, mantendo baixa latência e custo.

O que há de novo: comparação com concorrentes

Abordagens para evitar paradas prematuras já existem em plataformas concorrentes — OpenAI, LangChain (LangGraph) e Google (ADK) —, mas todas exigem que o desenvolvedor construa manualmente parte da lógica de avaliação.

Plataforma	Abordagem	Complexidade do desenvolvedor	Infraestrutura extra necessária
OpenAI	Loop fechado com avaliadores externos	Média — precisa adicionar avaliadores manualmente	Sim
LangGraph / Google ADK	Suporte a avaliação independente, mas nó crítico deve ser criado	Alta — lógica de término e observabilidade explícitas	Sim
Claude Code /goals	Avaliador embutido e configurável por prompt	Baixa — apenas definir condição	Não necessária

A inovação não está no conceito — separar o executor do juiz é um princípio de design conhecido —, mas na conveniência nativa. A Anthropic transformou uma boa prática em funcionalidade padrão, reduzindo a complexidade operacional para equipes de engenharia.

Ilustração conceitual da separação entre executor e avaliador no Claude Code, com tons quentes e estilo de infográfico — Arquitetura de dois modelos: executor Claude e avaliador Haiku trabalhando em conjunto.

Por que isso importa

O maior gargalo em agentes de IA para produção não é a capacidade dos modelos de gerar código ou executar comandos, mas a confiabilidade da finalização. Um agente que para cedo demais gera retrabalho, perda de tempo e desconfiança no pipeline.

Para empresas que já gerenciam pilhas de ferramentas complexas, ter um avaliador nativo que não exige a adição de mais um sistema para manter é um ganho significativo. A separação formal reduz o risco de o modelo confundir o que já foi feito com o que ainda precisa ser feito — um viés comum em autoavaliação.

A leitura técnica: arquitetura de dois modelos

A arquitetura de dois modelos do /goals pode ser decomposta em três elementos:

Modelo executor: o Claude principal, responsável por ler arquivos, executar comandos e editar código no loop.
Modelo avaliador: o Haiku (por padrão), que após cada passo do agente verifica se a condição de sucesso foi atingida.
Condição de sucesso: definida via prompt, com três características recomendadas pela Anthropic:
- Estado final mensurável: um resultado de teste, um código de saída, uma contagem de arquivos, uma fila vazia.
- Verificação explícita: como Claude deve provar o cumprimento (ex.: npm test exits 0 ou git status is clean).
- Restrições de preservação: o que não pode mudar no caminho (ex.: "nenhum outro arquivo de teste é modificado").

O uso de um modelo menor para avaliação binária é inteligente: tarefas determinísticas com critérios objetivos não exigem o poder de raciocínio do modelo principal, e a separação evita que o executor adie ou antecipe a parada por motivos espúrios. A Anthropic também afirma que não há necessidade de plataforma de observabilidade de terceiros — embora empresas possam continuar usando uma em paralelo.

A leitura de mercado

A movimentação da Anthropic sinaliza uma estratégia clara: posicionar-se como facilitadora de agentes confiáveis para empresas que não querem montar infraestrutura de avaliação própria. Enquanto concorrentes como OpenAI e Google exigem mais customização, o /goals reduz a barreira de entrada para adoção de agentes em cenários determinísticos — migrações de código, correção de suítes de teste, limpeza de backlog.

Sean Brownell, diretor de soluções da Sprinklr, destacou em email ao VentureBeat que separar o construtor do juiz é um design sólido, mas que a Anthropic não é pioneira. O mais interessante, segundo ele, é que duas das maiores empresas de IA lançaram o mesmo comando com dias de diferença — e chegaram a conclusões opostas sobre quem decide a finalização.

Enquanto a Anthropic aposta no avaliador nativo, a abordagem da concorrência deixa a decisão nas mãos do agente, com abertura para avaliação externa.

O recurso acelera a adoção de agentes auditáveis sem adicionar novos sistemas ao stack. Para equipes de engenharia que desejam agentes de longa duração e stateful, ter uma verificação embutida é um pré-requisito para delegação de tarefas em produção.

Riscos, limites e pontos de atenção

Foco em tarefas determinísticas: o /goals brilha em cenários com estado final verificável. Para tarefas que exigem julgamento de design ou decisões subjetivas, a avaliação humana ainda é indispensável.
Falta de dados públicos: não há números concretos sobre redução de erros ou adoção em larga escala. O anúncio é recente (maio de 2026) e baseado em documentação e uma fonte externa (Sprinklr).
Risco de commoditização: como observou Brownell, concorrentes podem copiar a funcionalidade rapidamente. O diferencial está na implementação nativa, mas o recurso em si não é único.
Custo adicional: o uso do modelo Haiku como avaliador tem custo de inferência, ainda que baixo. Empresas com alto volume de execuções devem avaliar o impacto.

O que isso sinaliza daqui para frente

A separação entre executor e avaliador aponta para uma direção clara na orquestração de agentes: a verificação contínua como requisito de design, não como complemento opcional. À medida que agentes se tornam stateful, autoaprendizes e de longa duração, ter um juiz independente embutido deve se tornar padrão.

A Anthropic, ao incluir o /goals nativamente, não apenas resolve um problema prático — ela também estabelece um precedente arquitetural. Se a tendência se consolidar, em breve avaliadores especializados (pequenos, rápidos, configuráveis por prompt) farão parte de todo pipeline de agente empresarial sério. A pergunta que fica não é se a indústria vai adotar essa separação, mas quem vai torná-la tão trivial quanto definir uma condição de sucesso.

Resumo prático:

O recurso /goals do Claude Code separa formalmente o modelo executor do modelo avaliador, usando o Haiku para verificar condições de sucesso binárias. Isso elimina a parada prematura em tarefas determinísticas sem exigir infraestrutura extra. Para equipes de engenharia que buscam agentes confiáveis em produção, essa arquitetura reduz complexidade operacional e estabelece um novo padrão de verificação contínua.

A Metatron Omni acompanha de perto as inovações em orquestração de agentes de IA. Se sua empresa está avaliando a adoção de agentes stateful, a separação executor-avaliador é um design que merece atenção estratégica. Entre em contato para discutir como aplicar esse conceito nos seus pipelines.