18 Abr 2026 5 min de leitura Infraestrutura de IA

Zo e a Nova Arquitetura da IA: como a Vercel reduziu o P99 e transformou confiabilidade em infraestrutura

Photo by Pedro Henrique Santos on Unsplash

Quando uma equipe pequena precisa operar um produto de IA que conversa, responde e se adapta em tempo real, a diferença entre “funciona” e “funciona sempre” costuma estar longe do modelo em si. A Zo Computer descobriu isso na prática: ao migrar sua camada de IA para o AI SDK e o AI Gateway da Vercel, a empresa tirou do próprio backend responsabilidades críticas como roteamento, retries, fallback e normalização de provedores.

O resultado não foi apenas uma simplificação de arquitetura. Em produção, a Zo reportou uma queda da taxa de retry de 7,52% para 0,34%, aumento da taxa de sucesso do chat para 99,93% e redução do P99 de latência de 131s para 81s. Além disso, integrar novos modelos deixou de ser um ciclo de código e deploy para acontecer em cerca de 30 segundos via configuração.

O que realmente mudou: da lógica do app para a camada de infraestrutura

O ponto central desse caso não é um simples “swap” de fornecedor. A mudança foi arquitetural. Antes, a aplicação precisava carregar internamente boa parte da complexidade de trabalhar com múltiplos provedores de modelos: adaptar formatos, lidar com falhas, decidir rotas e sustentar a operação sob variações de disponibilidade.

Com a adoção do stack da Vercel, essa responsabilidade passou a ser tratada como infraestrutura. O AI SDK padronizou a interface entre a aplicação e os provedores, reduzindo a necessidade de código específico por fornecedor. Já o AI Gateway assumiu tarefas operacionais como retries, fallback routing, monitoramento de saúde e gestão de uptime.

Na prática, isso significa menos superfície de erro, menos manutenção recorrente e uma base mais preparada para acompanhar a velocidade do ecossistema de IA, em que novos modelos aparecem o tempo todo e rapidamente se tornam parte das expectativas do mercado.

Por que a melhora em P99 importa mais do que a média

Em experiências conversacionais, olhar apenas para médias pode esconder o que realmente afeta o usuário. Um chat pode parecer “rápido” no geral, mas ainda assim produzir travamentos, esperas longas e respostas inconsistentes em momentos críticos. É por isso que o P99 é tão importante: ele mostra o comportamento no pior caso, justamente quando a percepção de confiabilidade é testada.

No caso da Zo, a redução do P99 de 131 segundos para 81 segundos é relevante porque melhora a experiência na cauda da distribuição, não apenas no fluxo ideal. Em produtos de IA que funcionam como assistentes sempre ativos, esse ganho tem peso real: a sensação para o usuário é de estabilidade, continuidade e prontidão.

Os números que mostram a virada operacional

Os dados compartilhados pela Zo ajudam a dimensionar o impacto da mudança:

Retry rate: de 7,52% para 0,34%
Chat success: 99,93%
P99 de latência: de 131s para 81s
Integração de novos modelos: cerca de 30 segundos, sem deploy

O que chama atenção aqui não é só a melhora absoluta, mas o tipo de problema que ela resolve. Uma taxa de retry mais baixa indica menos atrito no caminho entre aplicação e modelo. Menos retries significam menos atraso, menos consumo de recursos e menos situações em que o sistema precisa “se salvar” durante a execução.

Já a possibilidade de adicionar modelos em segundos muda o ritmo do time. Em vez de tratar cada novidade como um projeto de engenharia, a equipe passa a operar por configuração. Isso reduz o custo de experimentação e acelera a resposta ao mercado.

Por que isso é especialmente importante para times pequenos

A Zo é um exemplo valioso porque mostra como equipes enxutas podem competir em um ambiente que muda rapidamente. Com apenas oito pessoas, a empresa precisa acompanhar novos modelos, manter estabilidade e iterar no produto sem transformar a operação em uma teia de integrações frágeis.

Nesse contexto, abstrair a camada operacional da IA não é luxo. É estratégia. Quando roteamento, fallback e health monitoring saem do código do produto e passam para uma camada dedicada, o time ganha velocidade para experimentar e, ao mesmo tempo, reduz o risco de cada nova integração virar dívida técnica.

Isso também é coerente com a ideia de uma personal AI cloud: se o produto promete um agente sempre presente, a infraestrutura precisa sustentar disponibilidade, previsibilidade e resposta rápida. O valor percebido pelo usuário nasce tanto da qualidade do modelo quanto da qualidade da execução.

O que esse caso ensina sobre infraestrutura de IA

Há uma tendência clara se consolidando no mercado: produtos multi-modelo estão percebendo que a dor principal não é apenas inferência. É a camada operacional que conecta modelos, provedores e experiência final.

Esse caso reforça algumas implicações técnicas importantes:

O AI SDK reduz dependência de integrações específicas por fornecedor.
O AI Gateway desloca retries, fallback, observabilidade e uptime para a infraestrutura.
Adapters customizados deixam de ser necessários em muitos cenários, o que diminui manutenção.
A melhora no P99 indica ganho real de estabilidade percebida.
Suportar contextos maiores com menos erro sugere melhor adequação para workloads mais pesados e variáveis.

Do ponto de vista de mercado, a mensagem é ainda mais forte. Soluções que convertem complexidade operacional em experiência confiável tendem a ganhar espaço, especialmente entre produtos consumer e SMB. Para esses times, o ganho não está apenas em “usar um modelo melhor”, mas em conseguir mudar de modelo com rapidez, segurança e sem reinventar a própria camada de integração a cada lançamento relevante.

O que observar antes de generalizar os resultados

Apesar dos números impressionantes, vale manter a leitura crítica. Os dados vêm de um caso específico, com uma aplicação e um conjunto de modelos próprios. Além disso, a comparação inclui um período em que a rota fora da Vercel piorou, o que pode influenciar parte da diferença observada.

Também não há detalhes públicos sobre custos, contratos de SLA ou impacto financeiro direto da migração. E, como em toda mudança de infraestrutura, uma melhora em confiabilidade e experiência não garante por si só aumento de retenção ou receita. O ganho é real, mas ele se materializa de forma indireta, ao criar uma base mais estável para o produto evoluir.

Uma leitura estratégica do caso

O que a Zo Computer mostra é que a camada invisível da IA está virando vantagem competitiva. À medida que o mercado amadurece, não basta ter acesso aos modelos mais avançados. É preciso operar bem, integrar rápido e sustentar a experiência mesmo quando a demanda cresce ou os provedores variam.

Nesse cenário, plataformas que abstraem a complexidade de multi-modelos têm um papel estratégico: elas permitem que times menores ajam com a agilidade de times muito maiores. E, para produtos que vivem de conversas em tempo real, confiabilidade e latência deixam de ser métricas técnicas e passam a ser parte central da proposta de valor.

Em outras palavras: a mudança da Zo não é apenas sobre infraestrutura. É sobre transformar a operação da IA em uma vantagem de produto.

O que realmente mudou: da lógica do app para a camada de infraestrutura

Por que a melhora em P99 importa mais do que a média

Os números que mostram a virada operacional

Por que isso é especialmente importante para times pequenos

O que esse caso ensina sobre infraestrutura de IA

O que observar antes de generalizar os resultados

Uma leitura estratégica do caso

You might also like...

Vercel Lança Claude Sonnet 4.5 Pro/Flash no AI Gateway: Infraestrutura de IA com 1M Tokens e Alta Escalabilidade

Agentes Operacionais: A Nova Fronteira da IA com Camada Gerenciada, Estado e Segurança

AWS e MCP: como o protocolo deixa de ser tendência e vira infraestrutura na IA corporativa

Opus 4.7: a disputa real entre Anthropic, OpenAI e Google por confiabilidade, custo e desempenho em IA

TurboQuant revoluciona a inferência em longo contexto com compressão agressiva do KV Cache, mais precisão e sem retraining