5 min de leitura

FinOps na Era da IA: Tokens Imprevisíveis e a Urgência de uma Arquitetura Híbrida

Abstract technology texture
Photo on Unsplash

A nuvem pública levou uma década para tornar o FinOps uma disciplina madura. A inteligência artificial generativa está fazendo o mesmo… em um ano. Mas os tokens são muito mais imprevisíveis que CPUs.

O Paradoxo da Economia de Tokens

Em uma entrevista reveladora durante o Google Cloud Next, o CEO da Finout, Roi Ravhon, e o líder de FinOps do Google Cloud, Pathik Sharma, expuseram uma verdade incômoda: o modelo tradicional de FinOps, construído sobre custos previsíveis de computação e armazenamento, simplesmente não funciona quando lidamos com tokens de LLMs.

A economia da IA é intrinsecamente não determinística. Uma mesma consulta — "resuma este contrato" — pode consumir 500 tokens ou 5.000 tokens, dependendo do humor do modelo, da versão do prompt ou da rotação dos servidores. Orçamentos fixos viram ficção. CFOs que antes aprovavam cheques em branco para experimentação agora exigem ROI. E a conta continua subindo.

"O problema não é o preço do token. É a imprevisibilidade de quantos tokens serão necessários para completar uma tarefa." — Pathik Sharma, Google Cloud

Insight crítico: o custo total de IA está subindo mesmo com a queda vertiginosa dos preços por token. Porque os modelos de raciocínio e as cadeias de pensamento (chain-of-thought) consomem ordens de magnitude mais tokens por tarefa. Um modelo que "pensa em voz alta" pode gastar 10x mais tokens que um modelo de resposta direta.

Por que o FinOps Tradicional Não Funciona para IA

O FinOps clássico lida com recursos previsíveis: CPUs, GBs de RAM, armazenamento. Consumo é linear com o tempo. O FinOps de IA precisa lidar com:

  • Não determinismo: a mesma query, na mesma hora, pode ter custos diferentes.
  • Tokenização variável: palavras curtas em inglês consomem menos tokens que palavras longas em português ou alemão.
  • Model hopping: uma consulta pode ser roteada entre modelos pequenos, médios e gigantes, cada um com preço e latência diferentes.
  • Cadeias de agentes: um agente que invoca outro agente que invoca uma ferramenta gera custos encadeados que são difíceis de rastrear.

O resultado? Equipes de engenharia estão no escuro. Não sabem se o pico de custo veio de um agente com loop infinito ou de uma tarefa legítima. CFOs pressionam, e a culpa recai sobre times que não têm ferramentas adequadas.

FinOps Tradicional vs. FinOps para IA
Dimensão Nuvem Tradicional IA Generativa
Natureza do consumo Previsível, linear Não determinístico, exponencial
Unidade de custo vCPU, GB/hora Tokens, chamadas de API
Orçamentação Baseada em capacidade reservada Baseada em resultado de negócio
Ferramentas Dashboards estáticos Orquestração + LLMs + supervisão

A Arquitetura Híbrida Necessária

Ravhon e Sharma foram categóricos: agentes de IA para FinOps não devem agir sem supervisão. A receita é uma arquitetura híbrida em três camadas:

1. Camada Determinística (Detecção)

  • Regras fixas baseadas em thresholds (ex: "se custo/hora > 5x a média, acionar alerta").
  • Cálculos precisos, sem alucinação.
  • Executa ações destrutivas (desligar instância, escalar para baixo) apenas com aprovação humana explícita.

2. Camada de LLM (Contexto e Enriquecimento)

  • Interpreta o alerta: "O pico de custo no workload X pode ser devido a um modelo de raciocínio mal configurado."
  • Sugere ações corretivas (ex: "trocar para modelo menor para esta tarefa economizaria 40%").
  • Gera relatórios em linguagem natural para o C-level.

3. Supervisão Humana (Governança)

  • Para ações destrutivas, aprovação manual é obrigatória.
  • Para ações não destrutivas (ex: mudar roteamento de tráfego), pode ser automatizada com monitoramento de resultados.
"O LLM é ótimo para dar contexto, mas péssimo para executar comandos sem supervisão. Você não quer um agente alucinando e derrubando sua produção." — Roi Ravhon, Finout
Sala de controle FinOps híbrida com camadas determinísticas e LLM

Na prática: agentes de FinOps devem funcionar como SREs — alertam, sugerem, mas o "firefighter" (o humano) decide.

Orquestração Inteligente: O Modelo Certo para Cada Tarefa

A maior alavanca de economia em IA hoje não é negociar desconto com provedores, mas rotear cada requisição para o modelo mais barato e capaz.

Cenários concretos:

  • Tarefa simples: "Traduzir 'bom dia' para inglês" → Gemma 2B (roda on-device, custo zero).
  • Tarefa moderada: "Extrair sentimentos de um parágrafo" → Gemini Flash (custo baixo, boa performance).
  • Tarefa complexa: "Analisar contrato de 50 páginas com cláusulas ambíguas" → Gemini Pro ou GPT-4 (custo alto, mas necessário).

Ferramentas de orquestração (como LiteLLM, Portkey ou gateways nativos dos provedores) permitem definir regras de roteamento: por tipo de tarefa, por latência, por orçamento. E, o mais importante, fallback automático: se modelo A estiver caro/lento, migrar para modelo B sem impacto para o usuário.

Dica extra: Modelos pequenos (<4GB) rodando on-device (via WebGPU ou ONNX) podem substituir chamadas a APIs caras para tarefas triviais. É a versão moderna de "cache de resultados".

Os Custos Ocultos da IA: O Efeito 10x

Um insight que poucos discutem: para cada US$ 1 de investimento tangível em IA (API, infra, GPUs), há até US$ 10 em custos intangíveis.

  • Redesenho de processos de negócio para acomodar IA
  • Requaliificação de equipes (engenheiros que antes lidavam com microsserviços agora precisam entender tokenização)
  • Transformação organizacional (novos times de LLMOps, mudanças em governança de dados)
  • Custos de oportunidade (o que deixou de ser feito enquanto equipes montavam POCs)

Implicação para CFOs: orçamentos de IA não podem ser apenas "GPUs + APIs". É preciso alocar verba para treinamento, redesenho e possíveis retrabalhos. Empresas que ignoram o 10x intangible riskam aprovar projetos que parecem baratos mas consomem recursos organizacionais imensos.

Cultura Organizacional: O Pré-requisito que Antecede Ferramentas

Ravhon e Sharma foram categóricos: a maior barreira para FinOps de IA não é tecnologia — é cultura.

Muitas empresas pulam direto para ferramentas sem estabelecer:

  • Accountability: quem responde pelo custo de cada agente ou modelo?
  • Métrica de valor: o que é "sucesso" para um agente? Custo por lead convertido? Custo por ticket resolvido?
  • Orçamento por experimentação versus produção: times de ML querem liberdade para testar; finanças querem previsibilidade. Precisam de acordos claros.
"Ferramenta nenhuma vai resolver se a cultura não tiver disciplina de custo. Primeiro cultura, depois tecnologia." — Roi Ravhon

Recomendação dos especialistas: não comece por um vendor. Comece pela FinOps Foundation — aprenda os princípios, adapte para IA, depois escolha ferramentas que se encaixem na maturidade da sua organização.

Visão Metatron: O Futuro do FinOps é Determinístico e Adaptativo

A era dos tokens imprevisíveis não vai desaparecer. Modelos maiores, cadeias de raciocínio mais longas e agentes autônomos tornarão a variabilidade ainda maior. O FinOps do futuro será uma orquestração híbrida:

  • Camadas determinísticas para detecção e ações críticas — confiáveis, auditáveis, não negociáveis.
  • Camadas adaptativas com LLMs para contexto e planejamento — flexíveis, mas com guardrails.
  • Supervisão humana para decisões de alto impacto — sempre presente.

Empresas que dominarem essa arquitetura — e, mais importante, a cultura de accountability — não apenas controlarão custos, mas transformarão IA em vantagem competitiva sustentável. Para as demais, a imprevisibilidade dos tokens será o novo "surpresa na fatura da nuvem" — só que multiplicado por 10.

Quer se aprofundar? Recomendamos começar pelos guias da FinOps Foundation sobre IA e participar das discussões na comunidade LLMOps. As ferramentas são secundárias. A mentalidade é tudo.