6 min de leitura

KumoRFM-2 e a Nova Era do ML Tabular: Como Foundation Models Estão Reinventando Dados Empresariais

KumoRFM-2 e a Nova Era do ML Tabular: Como Foundation Models Estão Reinventando Dados Empresariais

Durante anos, a promessa da IA corporativa esbarrou em um problema bastante concreto: os dados mais valiosos das empresas não vivem em uma tabela única e organizada, mas em um emaranhado de tabelas conectadas, chaves estrangeiras, relações históricas e sinais espalhados por data warehouses. Transformar esse ambiente em algo útil para machine learning costuma exigir semanas, às vezes meses, de engenharia de features, ETL, validações e ajustes manuais.

É justamente nesse ponto que a Kumo quer reposicionar a conversa com o KumoRFM-2, um foundation model relacional desenhado para operar diretamente sobre dados empresariais estruturados. A proposta é ambiciosa: ler a estrutura relacional original, preservar as conexões entre tabelas e entregar previsões sem exigir o pipeline clássico de preparação pesada. Em vez de “achatar” os dados, o modelo tenta entender o grafo relacional como ele existe no warehouse.

O anúncio importa porque toca em um dos gargalos mais persistentes do analytics preditivo corporativo. Modelos de machine learning tradicionais para dados tabulares ainda dependem fortemente de feature engineering, seleção de colunas e, muitas vezes, transformação dos dados multi-tabela em uma única matriz. Esse processo pode funcionar, mas cobra um preço alto em tempo, manutenção e dependência de especialistas. A visão por trás do KumoRFM-2 é inverter essa lógica: manter a estrutura relacional intacta e permitir que o modelo extraia sinais diretamente das relações entre tabelas.

O que a Kumo está propondo com o KumoRFM-2

Segundo a empresa, o KumoRFM-2 foi criado para trabalhar nativamente com dados relacionais empresariais, inclusive em ambientes de grande escala, com a capacidade declarada de operar sobre mais de 500 bilhões de linhas. A promessa é que o modelo consiga fazer inferência em uma única passada, sem treinamento específico por tarefa e sem a necessidade de um feature store dedicado.

Na prática, isso significa atacar uma dor real de times de dados: muitos casos de uso preditivos exigem previsões sobre churn, fraude, propensão de compra, risco ou inadimplência, mas a construção do pipeline consome quase mais energia do que o próprio modelo. Se o KumoRFM-2 entregar parte do que promete, o fluxo pode se aproximar mais de uma consulta analítica do que de um projeto de ML tradicional.

Outro ponto central é o uso de linguagem natural para consultas preditivas. Esse detalhe, embora pareça apenas uma camada de interface, tem implicações importantes: reduz a barreira de entrada para equipes de negócio e acelera o ciclo entre pergunta e previsão. Em vez de depender sempre de uma equipe altamente especializada para estruturar cada caso de uso, a empresa sugere um modelo mais acessível e iterativo.

Por que isso é diferente do ML tabular tradicional

O machine learning tabular clássico costuma tratar o dado como uma tabela plana. Quando a informação original está distribuída entre múltiplas tabelas, o caminho mais comum é juntar tudo, agregar estatísticas e construir features artificiais. Isso pode gerar bons resultados, mas também pode apagar informação estrutural importante.

O argumento da Kumo é que os sinais mais valiosos não estão apenas nas colunas isoladas, e sim nas relações entre as tabelas: quem comprou o quê, quando, em qual contexto, com que histórico, qual sequência de eventos aconteceu, quais padrões se repetem ao longo do grafo relacional. Preservar isso sem flattening é a aposta do KumoRFM-2.

Para isso, a empresa afirma ter introduzido uma abordagem de hierarchical in-context learning, permitindo extrair sinais tanto no nível de tabela quanto entre tabelas. Em termos práticos, a ideia é que o modelo aprenda representações úteis a partir da estrutura relacional, sem depender de um treinamento customizado para cada problema.

Esse desenho também se conecta a uma limitação conhecida dos LLMs generalistas: eles são extremamente fortes em linguagem, mas não foram criados para entender nativamente joins, chaves estrangeiras e dependências estruturais de bancos de dados. O KumoRFM-2 tenta preencher exatamente esse vazio.

O que muda para empresas que trabalham com Snowflake, Databricks e SQL

Para times que vivem dentro de warehouses modernos, a proposta é sedutora. Se o modelo realmente conseguir operar diretamente sobre as tabelas existentes, a camada de implementação pode se tornar muito mais leve. Em vez de consolidar dados em pipelines longos, seria possível apontar o modelo para o ambiente relacional já existente e obter previsões mais rapidamente.

Isso não significa que o trabalho de dados desaparece. Governança, qualidade, padronização de chaves, documentação e consistência continuam sendo fundamentais. Mas o custo operacional de transformar dados para cada caso de uso pode cair bastante. Em outras palavras: menos tempo preparando a mesa, mais tempo usando os dados para prever comportamento.

Essa mudança pode ser especialmente relevante em organizações com múltiplas fontes, muitas tabelas de eventos e histórico longo. Em vez de construir uma pipeline nova para cada problema, um foundation model relacional poderia funcionar como uma camada preditiva reutilizável sobre o warehouse.

Benchmarks fortes, mas ainda não é prova final

A Kumo afirma que o KumoRFM-2 supera modelos supervisionados e versões anteriores em benchmarks acadêmicos e corporativos, incluindo RelBench v1 e SAP SALT. Esses resultados ajudam a sustentar a tese técnica, mas precisam ser lidos com cuidado.

Benchmarks são importantes porque dão um ponto de comparação, mas raramente capturam toda a complexidade de produção. Custos operacionais, latência, integração com sistemas existentes, estabilidade em dados ruidosos, manutenção ao longo do tempo e comportamento em cenários fora da distribuição são fatores decisivos em empresas.

Por isso, o mais prudente é enxergar o anúncio como um sinal forte de maturação da categoria — e não como prova definitiva de liderança. O espaço de foundation models para dados tabulares e relacionais está em rápida evolução, com concorrentes como SAP-RPT-1, MotherNet, TabICL e Mitra disputando espaço e tese técnica.

O que está em jogo no mercado de IA empresarial

Se a proposta da Kumo se confirmar em ambientes reais, o impacto pode ser significativo. Empresas poderiam encurtar ciclos de implantação de modelos preditivos, reduzir dependência de engenharia manual e acelerar a exploração de casos de uso que hoje ficam presos na fila de priorização.

Além disso, há uma pressão indireta sobre plataformas e ferramentas tradicionais de ML. Soluções centradas em feature engineering, feature store e preparação pesada de dados podem enfrentar uma nova geração de modelos que promete fazer mais com menos intervenção humana. Isso não elimina essas ferramentas, mas muda o centro de gravidade da conversa.

Também há um efeito cultural importante: ao permitir consultas preditivas em linguagem natural, a camada de IA tende a ficar menos restrita a especialistas. Isso pode democratizar o acesso à previsão, desde que a governança acompanhe a abertura do uso.

Os riscos e limites dessa tese

Apesar do entusiasmo, há pontos de atenção claros. Os ganhos reportados ainda se baseiam em benchmarks e declarações do próprio fornecedor. Não há, neste anúncio, evidência suficiente sobre adoção em produção, limites de custo em escala ou comportamento sob restrições corporativas reais.

Também é importante lembrar que a comparação com modelos supervisionados pode variar bastante dependendo da tarefa, do conjunto de dados e do nível de tuning disponível. Em alguns cenários, pipelines clássicos ainda podem performar muito bem, sobretudo quando há forte conhecimento de domínio e boa engenharia de features.

Outro ponto é a promessa de “zero training”. Na prática, ambientes corporativos raramente são tão simples. Mesmo que o modelo dispense treinamento por tarefa, haverá necessidade de validação, calibração, monitoramento e adaptação ao contexto específico do negócio.

Ou seja: a direção é promissora, mas a execução no mundo real ainda é a verdadeira prova.

O significado mais amplo do KumoRFM-2

Mais do que um anúncio de produto, o KumoRFM-2 representa uma mudança de paradigma em como pensar IA sobre dados estruturados. Por muito tempo, foundation models foram associados quase exclusivamente a linguagem e imagem. Agora, a fronteira começa a se deslocar para o universo relacional das empresas — exatamente onde estão muitos dos sinais mais úteis para previsão.

Se essa categoria amadurecer, o efeito pode ser profundo: menos fricção entre o dado e o modelo, menos transformação manual e mais velocidade para levar inteligência preditiva ao cotidiano operacional. Em vez de perguntar como adaptar o dado ao ML, a indústria passa a perguntar como fazer o ML entender a estrutura natural do dado.

No fim, essa é a pergunta mais interessante do anúncio da Kumo. Não se trata apenas de mais um modelo. Trata-se da tentativa de transformar o próprio warehouse em terreno nativo para foundation models — e de redefinir o que significa fazer previsão em ambiente corporativo.