GitHub reduziu em 62% o consumo de tokens em workflows agenticos – e você pode replicar
A inflação silenciosa dos agentes está drenando orçamentos de infraestrutura. Cada workflow de CI que chama um LLM pode consumir milhares de tokens — e quando multiplicado por dezenas de execuções diárias, o token bleed vira um problema financeiro real. A GitHub reduziu esse consumo em até 62% com uma metodologia replicável. Veja como.
O Problema: Caixa-Preta de Custos
Workflows agenticos fazem múltiplas chamadas a LLMs. Cada chamada carrega contexto — sistema, histórico, ferramentas — e gera saídas. Mas sem instrumentação, esses custos são invisíveis. Frameworks diferentes (Claude CLI, Copilot CLI, Codex CLI) têm formatos de log distintos, impossibilitando uma visão unificada.
O maior erro que equipes cometem é tratar tokens como recurso infinito. Em ambientes agenticos, cada turno de pensamento, cada ferramenta chamada e cada erro de parsing consomem tokens. Em CI, isso gera custos que crescem quadraticamente com a frequência de execução.
Insight chave: Normalizar logs entre frameworks é o pré-requisito para qualquer otimização séria. Sem ela, você está otimizando às cegas.
A Solução: API Proxy Unificada
O primeiro passo foi criar um API proxy que intercepta todas as chamadas de inferência dos agentes. Esse proxy captura metadados em um formato normalizado:
- Tokens de entrada e saída
- Modelo utilizado (Haiku, Sonnet, Opus)
- Tipo de token (pensamento, texto, tool call)
- Latência e sucesso da chamada
- Identificação do framework de origem
Com dados centralizados, a engenharia construiu o Daily Token Auditor — um workflow agentico que analisa logs do dia anterior, detecta padrões de ineficiência e sugere otimizações. Complementarmente, o Daily Token Optimizer automatiza a aplicação das otimizações mais seguras.
As Otimizações que Geraram Economia Real
1. Poda de Ferramentas MCP
MCP (Model Context Protocol) expõe ferramentas externas (API do GitHub, banco de dados). Cada ferramenta tem um schema incluído no contexto do LLM. O problema? Muitas ferramentas são incluídas mas nunca utilizadas.
- Antes: 15–20 ferramentas carregadas, cada schema com 1–2 KB
- Depois: Apenas as ferramentas relevantes para a tarefa
- Economia: 8–12 KB por chamada de contexto eliminado
O Daily Optimizer detecta ferramentas sem uso nos últimos N dias e as remove do manifesto automaticamente.
2. Substituição MCP por CLI (Pré-Agentic Steps)
Muitas operações que agentes executam via ferramentas MCP são determinísticas: buscar um diff (git diff), listar issues ou consultar status de PRs. Essas operações não exigem inteligência.
A GitHub implementou um proxy transparente que detecta chamadas determinísticas e as redireciona para comandos CLI do GitHub (gh). O LLM nunca é chamado; a resposta é injetada diretamente no contexto.
- Ganho: Elimina o custo de tool call + resposta do LLM
- Risco: Reduz flexibilidade, mas para operações determinísticas a troca é segura
- Exemplo: Em vez de o agente chamar
get_pr_diffvia MCP, o sistema executagh pr diffe insere o resultado como texto
Essa otimização foi particularmente eficaz no workflow Auto-Triage Issues, que reduziu o consumo em 62%.
3. Troca de Modelos (Model Tiering)
Nem toda tarefa exige o poder cognitivo de um Claude Opus. A GitHub implementou roteamento inteligente: tarefas simples (sumarização de diffs, classificação de issues) podem ser executadas por modelos mais baratos (Haiku ou Sonnet), reservando Opus para decisões complexas.
A métrica Effective Tokens (ET) foi criada exatamente para normalizar isso.
A Métrica Effective Tokens (ET)
A GitHub propôs uma métrica que vai além da contagem bruta de tokens. Effective Tokens pondera o custo real de cada inferência:
ET = Σ (tokens_input × winput + tokens_output × woutput) × fator_modelo
- Haiku: fator 1.0
- Sonnet: fator 2.5
- Opus: fator 15.0
Isso permite comparar workflows que usam modelos diferentes em pé de igualdade econômica. Uma economia de 50% em tokens brutos com Opus pode ser ainda mais significativa quando convertida para ET, dado o fator 15x de custo.
ET é a métrica que importa. Reduzir tokens brutos é bom; reduzir ET é o que salva o orçamento.
Resultados: Evidências Concretas
| Workflow | Redução em ET | Otimização Principal |
|---|---|---|
| Auto-Triage Issues | 62% | MCP → CLI + poda de ferramentas + model tiering |
| Security Guard | 43% | Poda de ferramentas + prompt optimization |
| Smoke Claude | 59% | Model tiering + remoção de tool calls desnecessárias |
| Contribution Check | 19% | Poda de ferramentas |
Nota sobre Contribution Check: Este workflow teve a menor redução, pois sua variabilidade natural de carga de trabalho mascara parte do ganho. Workload variation pode distorcer métricas de curto prazo.
Riscos e Limitações (Transparência Total)
Nenhuma otimização é isenta de trade-offs. A própria GitHub aponta os riscos:
- Medição de qualidade ainda é subjetiva. Sem ground truth, a qualidade é inferida por sinais processuais (número de tool calls, tokens de saída por chamada). Goodput metrics (qualidade real) ainda são um desafio.
- Workload variation pode mascarar ganhos. Um workflow que roda em um repositório pequeno pode mostrar resultados diferentes em um repositório massivo.
- Nem toda poda é benéfica. Em cenários imprevistos, a ausência de uma ferramenta podada pode exigir múltiplas chamadas compensatórias, anulando a economia.
- CLI substitution reduz flexibilidade. Operações inesperadas podem quebrar se o proxy não reconhecer o comando.
Como Replicar na Sua Equipe
A GitHub disponibilizou o código da infraestrutura. Aqui está o roteiro prático:
- Implemente um API proxy para unificar logs de tokens de todos os agentes.
- Crie um Daily Token Auditor como workflow agentico, analisando logs do dia anterior.
- Identifique ferramentas MCP com baixo uso e automatize a poda.
- Mapeie chamadas determinísticas (git diffs, consultas) e substitua por CLI com proxy transparente.
- Implemente model tiering com base na complexidade da tarefa.
- Use Effective Tokens (ET) como métrica padrão de custo.
Resumo prático: Três alavancas — visibilidade via proxy, auditoria automatizada e poda cirúrgica. Comece medindo, depois otimize cada chamada como se fosse um custo de CPU.
Visão Metatron: O Futuro da Agentic Development
A abordagem da GitHub sinaliza uma maturação do espaço agentico. Não se trata mais de "será que agentes funcionam?" — a questão agora é "como torná-los eficientes e economicamente sustentáveis?"
Nos próximos 12 meses, veremos três movimentos:
- Token observability se tornará padrão em qualquer plataforma de CI agentica. Ferramentas como LangSmith e Weights & Biases já caminham nessa direção.
- MCP será repensado. A poda automática de ferramentas e a substituição por chamadas determinísticas vão evoluir para protocolos mais inteligentes de resource negotiation.
- Model tiering será automático. LLMs menores farão routing inteligente para modelos maiores quando necessário, sem intervenção humana.
A otimização de tokens não é um exercício de avareza — é a chave para democratizar agentic workflows. Quando o custo por execução cai de centavos para frações de centavo, novos casos de uso se tornam viáveis.
O custo dos agentes não precisa ser um obstáculo. Ele pode ser gerenciado com a mesma disciplina que aplicamos a CPU e memória. Aplique esses princípios hoje e veja seus tokens renderem mais.