KumoRFM-2: a nova era da IA para dados estruturados sem ETL, feature store e treino por tarefa
A Kumo acaba de colocar mais uma peça importante na corrida por IA empresarial: o KumoRFM-2, um foundation model relacional desenhado para operar diretamente sobre dados corporativos estruturados. A promessa é ambiciosa — e muito atraente para times de dados — porque elimina etapas que hoje consomem tempo, orçamento e paciência: ETL, feature store e treinamento específico por tarefa.
Na prática, a proposta da empresa é mudar o ponto de partida do machine learning em ambientes corporativos. Em vez de achatar tabelas em uma estrutura única e forçar a perda de contexto entre entidades, o modelo trabalha sobre o grafo relacional do data warehouse, preservando chaves estrangeiras, dependências e conexões nativas entre tabelas. É uma tese poderosa: se as relações são onde o valor preditivo realmente mora, talvez o segredo não esteja em simplificar os dados, mas em entendê-los melhor.
O que a Kumo está tentando resolver
Quem trabalha com dados estruturados conhece bem o ritual: identificar tabelas, cruzar chaves, limpar inconsistências, construir features, testar versões, repetir. Em setores como varejo, finanças, saúde e software B2B, os dados normalmente vivem em múltiplas tabelas conectadas por relacionamentos complexos. O problema é que a modelagem tradicional costuma exigir que tudo seja reduzido a uma única tabela antes de qualquer previsão.
Esse processo é caro, lento e vulnerável a perdas de informação. Ao “achatar” o dado, a equipe muitas vezes remove justamente as relações mais úteis para a previsão. O KumoRFM-2 surge como uma tentativa de inverter essa lógica: manter a estrutura relacional intacta e deixar o modelo extrair sinais preditivos diretamente dessa rede de tabelas.
Segundo a Kumo, o sistema pode ser consultado em linguagem natural e conectado a ambientes como Snowflake, Databricks e outros data warehouses baseados em SQL. A empresa também afirma que o modelo escala para mais de 500 bilhões de linhas e supera baselines supervisionados em benchmarks acadêmicos e corporativos.
Por que isso importa para IA empresarial
Se a proposta for validada fora do ambiente de benchmark, o impacto pode ser grande. Hoje, boa parte do custo de projetos de machine learning em dados corporativos não está no algoritmo em si, mas na engenharia de dados. Encontrar, limpar, unir e transformar tabelas costuma consumir semanas ou meses. E isso antes mesmo do primeiro modelo ser treinado.
Ao prometer um fluxo nativo para dados relacionais, o KumoRFM-2 ataca exatamente esse gargalo. O resultado potencial é uma redução drástica no tempo para colocar modelos preditivos em produção, com menos dependência de trabalho manual e menos necessidade de construir estruturas intermediárias para cada caso de uso.
Esse movimento também reforça uma tendência mais ampla: a evolução da IA corporativa não está limitada aos grandes modelos de linguagem. Está surgindo uma nova geração de foundation models especializados, cada um treinado para um tipo específico de dado e de problema. Se os LLMs dominam texto, os modelos relacionais querem dominar o universo de tabelas, chaves e dependências.
O que há de novo na abordagem
O ponto técnico central do KumoRFM-2 é o uso de hierarchical in-context learning. Em vez de olhar apenas para uma linha ou uma tabela isolada, a arquitetura combina sinais em dois níveis: o da tabela e o das relações entre tabelas. Isso permite capturar padrões locais e estruturais ao mesmo tempo.
Essa ideia faz sentido para dados empresariais, que raramente são simples. Um cliente, por exemplo, pode estar relacionado a pedidos, pagamentos, chamados de suporte, churn, inadimplência e várias outras entidades. Um modelo relacional tenta aprender com esse ecossistema inteiro, e não só com uma planilha final montada à mão.
A Kumo também diz que o modelo é mais robusto a ruído, dados ausentes e degradação estrutural. Em outras palavras, ele teria uma tolerância melhor ao caos real dos data warehouses, onde nem sempre os relacionamentos estão perfeitos e a qualidade dos dados costuma variar de uma tabela para outra.
Os benchmarks chamam atenção, mas pedem cautela
Entre os dados divulgados, a Kumo destaca desempenho acima de baselines supervisionados em benchmarks como RelBench v1 e SAP SALT. Isso coloca o KumoRFM-2 numa posição competitiva frente a outras iniciativas da área, incluindo SAP-RPT-1, MotherNet, TabICL e Mitra.
Os resultados são promissores, mas aqui vale o alerta clássico: benchmark não é produção. Em ambientes reais, surgem desafios que testes controlados nem sempre capturam com precisão — latência, custo de inferência, integração com esquemas variáveis, governança, compliance, observabilidade e manutenção ao longo do tempo.
Também é importante lembrar que a promessa de substituir meses de feature engineering ainda precisa de validação independente. Em muitos casos, a maior dificuldade não está em fazer uma previsão, mas em garantir que ela seja confiável, explicável e sustentável dentro da operação da empresa.
O que pode mudar no trabalho das equipes de dados
Se a tese da Kumo se sustentar, o efeito pode ser profundo. Equipes de dados passariam a gastar menos tempo em engenharia manual e mais tempo em definição de problema, avaliação de impacto e governança. Isso pode acelerar aplicações como:
- previsão de churn;
- risco de inadimplência;
- propensão à compra;
- detecção de fraude;
- priorização de leads;
- previsão de valor do cliente ao longo do tempo.
Em todas essas frentes, o maior ganho não seria apenas técnico, mas operacional. Menos trabalho para montar datasets, menos ciclos de iteração e mais velocidade para experimentar hipóteses de negócio.
Uma disputa maior no mercado de IA para dados estruturados
O lançamento do KumoRFM-2 também mostra que a competição em IA corporativa está ficando mais segmentada. Já não basta oferecer um modelo grande e genérico; agora, a disputa acontece em camadas mais específicas do stack de dados. Há espaço para modelos de texto, modelos multimodais, modelos tabulares e, agora com força, modelos relacionais.
Esse mercado é especialmente interessante porque conversa diretamente com a infraestrutura que as empresas já têm. Em vez de exigir uma mudança radical de plataforma, essas soluções tentam se integrar ao que já existe: SQL, warehouses, pipelines e camadas de governança. Isso facilita a adoção e torna o discurso mais pragmático para líderes de dados e IA.
Onde mora o risco
Apesar da proposta elegante, há alguns pontos que ainda precisam de resposta. O primeiro é a validação externa: os ganhos mostrados pela Kumo precisam ser reproduzidos por terceiros, em dados e contextos diferentes. O segundo é a infraestrutura: operar em escala de centenas de bilhões de linhas é impressionante, mas o custo real e a latência importam muito para decisões em produção.
Outro fator crítico é a generalização. Um modelo pode se sair muito bem em certos esquemas e perder desempenho quando o grafo relacional muda, quando a qualidade dos dados cai ou quando a empresa tem uma arquitetura heterogênea demais. Além disso, setores regulados exigem explicabilidade, rastreabilidade e controles de acesso que vão muito além da acurácia.
Por fim, há um elemento de marketing técnico que sempre acompanha esse tipo de anúncio. Isso não diminui a relevância da inovação, mas recomenda prudência. O futuro da IA relacional pode ser promissor — e talvez até inevitável —, porém o teste definitivo continua sendo o uso real.
O que observar daqui para frente
Para quem acompanha IA empresarial, este lançamento merece atenção por um motivo simples: ele aponta para uma mudança de paradigma. O valor não estaria apenas em “aplicar IA aos dados”, mas em mudar a forma como o modelo enxerga os dados corporativos. Isso pode redefinir o papel de feature engineering, dos data warehouses e até da própria engenharia de machine learning em ambientes estruturados.
Se o KumoRFM-2 entregar em produção o que promete em benchmark, a consequência pode ser relevante: menos atrito para construir modelos preditivos, mais velocidade para experimentar e uma nova geração de ferramentas voltadas ao relacionamento entre tabelas. Em um mercado obcecado por produtividade, isso é exatamente o tipo de avanço que chama atenção.
Por enquanto, a leitura mais equilibrada é esta: o KumoRFM-2 não é apenas mais um modelo. É um sinal de que a IA para dados corporativos está entrando numa fase nova, em que a pergunta deixa de ser “como achatar os dados?” e passa a ser “como aproveitar melhor a estrutura que já existe?”.