Docker Cria Frota de 7 Agentes de IA que Automatizam Testes, Triagem e Correções em CI
Sete agentes de IA. Cada um com uma função clara. Todos rodando em produção dentro de pipelines CI reais. A Docker não está apenas experimentando — está revelando o manual de operações do futuro.
Uma frota que pensa, decide e executa
A equipe Coding Agent Sandboxes da Docker acaba de apresentar um dos estudos de caso mais concretos de sistemas multiagente em produção. O projeto, chamado Fleet, coloca sete agentes de IA para operar de forma coordenada — testando, triando e corrigindo código — tanto em máquinas locais quanto em pipelines de CI.
O diferencial? Nenhum agente segue scripts rígidos. Cada um recebe uma descrição de papel em Markdown, interpreta o contexto e age com julgamento próprio.
| Agente | Função principal |
|---|---|
| build-engineer | Garante a integridade do processo de compilação |
| project-manager | Coordena tarefas e define prioridades |
| product-owner | Estabelece critérios de aceitação e visão do produto |
| cli-tester | Realiza testes exploratórios na interface de linha de comando |
| performance-tester | Avalia métricas de desempenho e regressões |
| upgrade-tester | Verifica compatibilidade entre versões |
| software-engineer | Implementa correções e melhorias no código |
Esses agentes operam sobre Claude Code skills — habilidades descritivas que permitem ao modelo investigar, formular hipóteses e decidir a ação mais adequada.
Por que isso redefine o CI/CD
Não se trata de mais uma demonstração de laboratório. O Fleet da Docker quebra paradigmas estabelecidos e entrega padrões replicáveis para qualquer equipe de engenharia.
Os cinco princípios que mudam o jogo
- Habilidades como descrições, não como scripts — o agente raciocina antes de agir
- Desenvolvimento local-first — cada habilidade é depurada no laptop, não em loops lentos de CI
- Composição de habilidades — agentes carregam outros agentes, formando uma hierarquia funcional
- Padrão Ralph-loop — separação clara entre trabalhador e revisor
- Dogfooding real — tudo roda dentro do sandbox isolado da própria Docker
“Habilidades como descrições de papéis, não como scripts — os agentes investigam, decidem e agem com base em contexto.”
Arquitetura: o que faz a frota funcionar
Markdown como contrato de comportamento
Um arquivo como /cli-tester.md define a persona, as regras de atuação e os limites do agente. Sem step-by-step rígido. O modelo lê o contexto, formula hipóteses e decide o próximo movimento. É a diferença entre um robô que obedece e um agente que exerce julgamento.
Local-first: velocidade que elimina surpresas
O maior gargalo em sistemas baseados em agentes é o ciclo lento de depuração no CI. A Docker inverteu a lógica: o mesmo arquivo de habilidade roda de forma idêntica no laptop e no pipeline. O desenvolvedor itera localmente em minutos, não em horas. Quando entra no CI, o comportamento já é conhecido.
Agentes que carregam agentes
Um padrão elegante emerge na composição: o cli-tester carrega o build-engineer e o project-manager como dependências. Cada agente permanece focado em seu domínio, mas a inteligência coletiva aparece nas interações. É o equivalente digital de um time que sabe exatamente quando pedir ajuda.
Ralph-loop: o revisor implacável
Inspirado no clássico worker-reviewer pattern, o Ralph-loop da Docker funciona assim:
- Um agente worker (Claude Opus) gera código ou correções
- Um agente reviewer (Opus com 1M tokens de contexto) avalia a saída
- O ciclo pode iterar até 5 vezes antes de criar um Pull Request
É a revisão de código tradicional traduzida para o mundo dos agentes autônomos.
O Ralph-loop garante que nenhum código entre no repositório sem passar por um crivo de qualidade equivalente ao de um revisor humano sênior.
O xadrez de mercado: Docker se reposiciona
O impacto estratégico vai além da tecnologia. A Docker está construindo uma narrativa poderosa como plataforma de infraestrutura para frotas de agentes escaláveis.
Duas visões de futuro colidindo
O mercado de ferramentas de desenvolvimento com IA está se dividindo em duas abordagens distintas:
- Assistência reativa: GitHub Copilot, Codeium — sugerem código enquanto você digita
- Automação proativa: Fleet da Docker, Devin — executam fluxos completos de forma autônoma
A aposta da Docker é clara e os padrões que emergem do Fleet — Ralph-loop, composição de habilidades, local-first — reduzem a barreira de adoção para qualquer equipe que queira escalar automação com IA.
Limitações: o que ninguém está dizendo
Transparência incomum: a equipe documentou abertamente os pontos críticos. Ignorá-los seria ingênuo.
Supervisão humana não escala
Os agentes criam PRs, mas nunca fazem merge. A decisão final permanece humana. Com o crescimento da frota, cada PR adicional representa mais carga de revisão manual. A confiança é conquistada, não delegada — mas o gargalo humano é real.
O problema não é gerar issues, é filtrá-las
No início, o cli-tester inundava o board com issues — muitas irrelevantes ou duplicadas. A equipe precisou investir pesado em deduplicação e confirmação antes do registro. A lição: triagem é mais crítica do que detecção.
Lock-in no ecossistema Claude
Todo o Fleet depende dos modelos e do formato de habilidade da Anthropic. A portabilidade entre fornecedores ainda não foi endereçada. Para equipes que prezam por flexibilidade, é um risco a considerar.
Complexidade de manutenção
Gerenciar 20 arquivos de habilidade com interdependências não é trivial. A Docker admite: conforme a frota cresce, a orquestração de skills exigirá ferramentas de governança próprias.
A transparência da equipe Docker sobre essas limitações é, ironicamente, um sinal de maturidade. Eles sabem onde o sistema range — e estão documentando isso para a comunidade.
O que você pode implementar hoje
Seis aprendizados práticos extraídos diretamente da experiência da equipe Docker:
- Comece com habilidades fundamentais — build, teste, revisão. Especialize depois.
- Invista em triagem desde o primeiro dia — o gargalo real é filtrar ruído.
- Mantenha o merge decision humano — automação total é prematura em 2025.
- Desenvolva localmente, faça deploy no CI — o ciclo local é 10x mais rápido.
- Adote o padrão worker/reviewer — a separação melhora a qualidade consistentemente.
- Componha habilidades como um time — agentes monolíticos quebram; papéis colaborativos escalam.
Resumo prático: O Fleet da Docker prova que sistemas multiagente em CI/CD não são ficção. São realidade em produção. Os padrões estão documentados. As limitações estão mapeadas. O caminho está iluminado — a pergunta é quando sua equipe começa a percorrê-lo.
O futuro em 18 meses
Estamos no equivalente a 1995 para servidores web: a infraestrutura básica existe, os padrões estão emergindo e as primeiras implementações em produção já provam o conceito. O que vem a seguir:
- Mercados de habilidades — repositórios públicos de definições de papéis de agentes
- Orquestradores multi-modelo — agentes que alternam entre Claude, GPT e Gemini conforme a tarefa
- Governança nativa — ferramentas para auditar, versionar e controlar permissões de agentes
- Especialização vertical — agentes focados em segurança, compliance e finanças
A Docker iluminou o caminho. O próximo movimento é de quem está lendo.
Quer implementar agentes autônomos no seu pipeline? Comece pequeno: um agente de build, um de teste, e o padrão worker/reviewer. O manual está pronto. A infraestrutura existe. Resta a decisão.