Claude Code /goals separa executor e avaliador para agentes de IA confiáveis
Um agente de migração de código termina sua execução. O pipeline aparece verde. Dias depois, descobre-se que vários módulos nunca foram compilados. Não é erro de modelo — é um agente que decidiu que havia terminado antes da conclusão real.
O problema da parada prematura em agentes de IA
Esse cenário, cada vez mais comum em pipelines de IA empresariais, expõe uma fragilidade estrutural nos agentes contemporâneos: delegar ao mesmo modelo que executa a tarefa o julgamento sobre quando ela está completa. A Anthropic acaba de lançar uma resposta direta a esse problema com o recurso /goals no Claude Code — uma separação formal entre quem trabalha e quem avalia.
O que aconteceu
A Anthropic disponibilizou no Claude Code o comando /goal, que introduz um modelo avaliador independente no loop de execução do agente. O desenvolvedor define uma condição de sucesso por meio de um prompt (por exemplo, "/goal todos os testes em test/auth passam e o lint está limpo"). A partir daí, o Claude Code executa a tarefa normalmente, mas a cada tentativa do agente de declarar a tarefa como concluída, um modelo separado — por padrão, o Haiku (modelo menor e mais barato da Anthropic) — verifica se a condição foi realmente atendida.
Se a condição não é satisfeita, o agente continua executando. Se é satisfeita, o avaliador registra o cumprimento no histórico da conversa e limpa o objetivo. O avaliador toma apenas uma decisão binária: pronto ou não pronto. Por isso, um modelo pequeno como o Haiku é suficiente, mantendo baixa latência e custo.
O que há de novo: comparação com concorrentes
Abordagens para evitar paradas prematuras já existem em plataformas concorrentes — OpenAI, LangChain (LangGraph) e Google (ADK) —, mas todas exigem que o desenvolvedor construa manualmente parte da lógica de avaliação.
| Plataforma | Abordagem | Complexidade do desenvolvedor | Infraestrutura extra necessária |
|---|---|---|---|
| OpenAI | Loop fechado com avaliadores externos | Média — precisa adicionar avaliadores manualmente | Sim |
| LangGraph / Google ADK | Suporte a avaliação independente, mas nó crítico deve ser criado | Alta — lógica de término e observabilidade explícitas | Sim |
| Claude Code /goals | Avaliador embutido e configurável por prompt | Baixa — apenas definir condição | Não necessária |
A inovação não está no conceito — separar o executor do juiz é um princípio de design conhecido —, mas na conveniência nativa. A Anthropic transformou uma boa prática em funcionalidade padrão, reduzindo a complexidade operacional para equipes de engenharia.
Por que isso importa
O maior gargalo em agentes de IA para produção não é a capacidade dos modelos de gerar código ou executar comandos, mas a confiabilidade da finalização. Um agente que para cedo demais gera retrabalho, perda de tempo e desconfiança no pipeline.
Para empresas que já gerenciam pilhas de ferramentas complexas, ter um avaliador nativo que não exige a adição de mais um sistema para manter é um ganho significativo. A separação formal reduz o risco de o modelo confundir o que já foi feito com o que ainda precisa ser feito — um viés comum em autoavaliação.
A leitura técnica: arquitetura de dois modelos
A arquitetura de dois modelos do /goals pode ser decomposta em três elementos:
- Modelo executor: o Claude principal, responsável por ler arquivos, executar comandos e editar código no loop.
- Modelo avaliador: o Haiku (por padrão), que após cada passo do agente verifica se a condição de sucesso foi atingida.
- Condição de sucesso: definida via prompt, com três características recomendadas pela Anthropic:
- Estado final mensurável: um resultado de teste, um código de saída, uma contagem de arquivos, uma fila vazia.
- Verificação explícita: como Claude deve provar o cumprimento (ex.:
npm test exits 0ougit status is clean). - Restrições de preservação: o que não pode mudar no caminho (ex.: "nenhum outro arquivo de teste é modificado").
O uso de um modelo menor para avaliação binária é inteligente: tarefas determinísticas com critérios objetivos não exigem o poder de raciocínio do modelo principal, e a separação evita que o executor adie ou antecipe a parada por motivos espúrios. A Anthropic também afirma que não há necessidade de plataforma de observabilidade de terceiros — embora empresas possam continuar usando uma em paralelo.
A leitura de mercado
A movimentação da Anthropic sinaliza uma estratégia clara: posicionar-se como facilitadora de agentes confiáveis para empresas que não querem montar infraestrutura de avaliação própria. Enquanto concorrentes como OpenAI e Google exigem mais customização, o /goals reduz a barreira de entrada para adoção de agentes em cenários determinísticos — migrações de código, correção de suítes de teste, limpeza de backlog.
Sean Brownell, diretor de soluções da Sprinklr, destacou em email ao VentureBeat que separar o construtor do juiz é um design sólido, mas que a Anthropic não é pioneira. O mais interessante, segundo ele, é que duas das maiores empresas de IA lançaram o mesmo comando com dias de diferença — e chegaram a conclusões opostas sobre quem decide a finalização.
Enquanto a Anthropic aposta no avaliador nativo, a abordagem da concorrência deixa a decisão nas mãos do agente, com abertura para avaliação externa.
O recurso acelera a adoção de agentes auditáveis sem adicionar novos sistemas ao stack. Para equipes de engenharia que desejam agentes de longa duração e stateful, ter uma verificação embutida é um pré-requisito para delegação de tarefas em produção.
Riscos, limites e pontos de atenção
- Foco em tarefas determinísticas: o /goals brilha em cenários com estado final verificável. Para tarefas que exigem julgamento de design ou decisões subjetivas, a avaliação humana ainda é indispensável.
- Falta de dados públicos: não há números concretos sobre redução de erros ou adoção em larga escala. O anúncio é recente (maio de 2026) e baseado em documentação e uma fonte externa (Sprinklr).
- Risco de commoditização: como observou Brownell, concorrentes podem copiar a funcionalidade rapidamente. O diferencial está na implementação nativa, mas o recurso em si não é único.
- Custo adicional: o uso do modelo Haiku como avaliador tem custo de inferência, ainda que baixo. Empresas com alto volume de execuções devem avaliar o impacto.
O que isso sinaliza daqui para frente
A separação entre executor e avaliador aponta para uma direção clara na orquestração de agentes: a verificação contínua como requisito de design, não como complemento opcional. À medida que agentes se tornam stateful, autoaprendizes e de longa duração, ter um juiz independente embutido deve se tornar padrão.
A Anthropic, ao incluir o /goals nativamente, não apenas resolve um problema prático — ela também estabelece um precedente arquitetural. Se a tendência se consolidar, em breve avaliadores especializados (pequenos, rápidos, configuráveis por prompt) farão parte de todo pipeline de agente empresarial sério. A pergunta que fica não é se a indústria vai adotar essa separação, mas quem vai torná-la tão trivial quanto definir uma condição de sucesso.
Resumo prático:
O recurso /goals do Claude Code separa formalmente o modelo executor do modelo avaliador, usando o Haiku para verificar condições de sucesso binárias. Isso elimina a parada prematura em tarefas determinísticas sem exigir infraestrutura extra. Para equipes de engenharia que buscam agentes confiáveis em produção, essa arquitetura reduz complexidade operacional e estabelece um novo padrão de verificação contínua.
A Metatron Omni acompanha de perto as inovações em orquestração de agentes de IA. Se sua empresa está avaliando a adoção de agentes stateful, a separação executor-avaliador é um design que merece atenção estratégica. Entre em contato para discutir como aplicar esse conceito nos seus pipelines.