05 Mai 2026 4 min de leitura

Subquadratic quebra barreira de 12 milhões de tokens com atenção linear — mas será que é real?

Uma startup de Miami com apenas US$ 29 milhões diz ter eliminado o maior gargalo da IA generativa. A promessa é tão ambiciosa quanto familiar — e o histórico de anúncios semelhantes exige um olhar clínico.

Corredor digital azul neon representando processamento de tokens em arquitetura de atenção subquadrática

A mecânica do SSA: nem esparsa, nem comprimida

A base técnica anunciada é a Subquadratic Selective Attention (SSA). Diferente de outras tentativas de escapar do custo O(n²) dos Transformers, ela não sacrifica precisão por velocidade e não depende de compressão lossy.

O que torna o SSA diferente

O mecanismo opera com atenção seletiva dependente de conteúdo. Em vez de calcular relações entre todos os tokens — como faz a atenção densa — ou armazenar um resumo fixo como Mamba e RWKV, o SSA decide dinamicamente o que merece atenção, mantendo complexidade O(n) pura.

A grande questão não é se o truque funciona em um teste de laboratório, mas se sobrevive ao mundo real.

Comparação rápida com abordagens conhecidas

Atenção densa (Transformers clássicos): custo O(n²), precisa, mas proibitiva em contextos longos.
Atenção esparsa (DeepSeek): reduz o custo, mas o indexador ainda é O(n²).
Modelos de estado (Mamba, RWKV): O(n) com compressão lossy — falham em tarefas de recuperação fina.
SSA: promete O(n) puro sem perda de precisão, com 92,1% de acerto no teste needle-in-a-haystack com 12 milhões de tokens.

Nenhum artigo técnico foi publicado. Nenhum laboratório independente reproduziu os resultados. A arquitetura permanece fechada.

Benchmarks: números que agitam o mercado

A startup divulgou resultados comparativos que, se confirmados, reposicionam o estado da arte:

Benchmark	Subquadratic	Concorrente Direto
MRCR v2 (recuperação)	83	74 (GPT-5.5)
RULER 128K (raciocínio longo)	97,1%	94,8% (Claude Opus 4.6)
Needle-in-a-haystack 12M	92,1%	N/A
SWE-Bench (codificação)	82,4%	~80% (modelos frontier)
Aceleração vs atenção densa (1M tokens)	52x	—

Por que os números pedem cautela

Três fragilidades enfraquecem a euforia:

Execução única: devido ao alto custo de inferência, cada teste foi rodado uma única vez. Sem repetições não há significância estatística.
Modelo pequeno: o CEO reconheceu que o protótipo é "way smaller than the big labs". A escalabilidade para centenas de bilhões de parâmetros é uma incógnita.
SWE-Bench inflado: parte da vantagem em codificação pode vir do harness de avaliação, não da capacidade intrínseca do modelo.

O SSA é o único que promete custo linear e recuperação precisa simultaneamente. Mas a coluna da validação pública permanece em branco.

Riscos e o fantasma das promessas vazias

A história da IA está cheia de anúncios grandiosos que murcharam sob escrutínio. A Subquadratic enfrenta obstáculos que vão além da engenharia:

Validação independente zero: o modelo só é acessível via API. Não há artigo, pesos abertos ou reprodução externa.
Sombra da Magic.dev: a startup levantou US$ 500 milhões prometendo 100 milhões de tokens e desapareceu do radar. O padrão é familiar.
Custo real da infraestrutura: o CEO reclama dos preços de neoclouds. A eficiência teórica pode não se traduzir em economia operacional.
Caixa-preta: a recusa em abrir os pesos trava auditorias de segurança, adoção open-source e escrutínio científico.

O cemitério de startups que prometeram atenção linear é extenso. O hype é abundante; a validação, escassa.

Se for real, o jogo muda para os gigantes

Assumindo que a tecnologia se prove escalável, o impacto seria imediato. Contextos longos deixariam de ser um luxo para se tornar infraestrutura básica em:

Codificação assistida em bases de código inteiras
Análise de processos jurídicos com milhares de páginas
Pesquisa semântica em pilhas de documentos corporativos

A Subquadratic, com valuation de US$ 500 milhões, é pequena para competir sozinha, mas tem o tamanho ideal para ser adquirida por Microsoft, Google ou Amazon — repetindo o script de Inflection e DeepMind.

A tecnologia pode ser real, mas o modelo atual é um proof of concept para janelas de 12 milhões de tokens, não uma solução em escala frontier. A prova definitiva virá com o modelo grande prometido para 2025.

Comparação direta entre arquiteturas

Arquitetura	Custo de Atenção	Recuperação Precisa	Validação Pública
Atenção densa (Transformers)	O(n²)	✅	✅ Ampla
DeepSeek Sparse Attention	O(n²) no indexador	✅	✅ Benchmarks
Mamba / RWKV	O(n)	❌ (compressão lossy)	✅ Moderada
Subquadratic SSA	O(n) puro	✅ (92,1% em 12M)	❌ Nenhuma

A posição do SSA é solitária: é o único que preenche custo linear e precisão simultaneamente. A lacuna de validação, no entanto, mantém tudo no campo das possibilidades.

O futuro do contexto longo

O anúncio da Subquadratic é um termômetro do amadurecimento da indústria. Estamos saindo das teorias de atenção subquadrática e entrando em produtos concretos. O cenário para os próximos meses:

Validação independente definirá o destino do SSA. Sem ela, a tecnologia não entra no radar das grandes decisões.
Meta de 50 milhões de tokens no Q4 é agressiva, mas plausível se a linearidade for real. Isso viabilizaria análise de livros inteiros e jurisprudências complexas.
Aquisição estratégica: os gigantes monitoram de perto. Internalizar a tecnologia antes que ela vire ameaça é o movimento padrão.
GPT-5.5 e Claude Opus 4.6 mostram que a corrida por contexto longo está longe de acabar — e ninguém vai dormir no ponto.

O custo de validar é baixo: qualquer laboratório com acesso à API pode testar a recuperação em contextos longos. Enquanto essa revalidação não acontece, a Subquadratic segue como uma aposta de alto risco e potencial transformador. O conselho permanece: confira os números, desconfie do hype.