Subquadratic quebra barreira de 12 milhões de tokens com atenção linear — mas será que é real?
Uma startup de Miami com apenas US$ 29 milhões diz ter eliminado o maior gargalo da IA generativa. A promessa é tão ambiciosa quanto familiar — e o histórico de anúncios semelhantes exige um olhar clínico.
A mecânica do SSA: nem esparsa, nem comprimida
A base técnica anunciada é a Subquadratic Selective Attention (SSA). Diferente de outras tentativas de escapar do custo O(n²) dos Transformers, ela não sacrifica precisão por velocidade e não depende de compressão lossy.
O que torna o SSA diferente
O mecanismo opera com atenção seletiva dependente de conteúdo. Em vez de calcular relações entre todos os tokens — como faz a atenção densa — ou armazenar um resumo fixo como Mamba e RWKV, o SSA decide dinamicamente o que merece atenção, mantendo complexidade O(n) pura.
A grande questão não é se o truque funciona em um teste de laboratório, mas se sobrevive ao mundo real.
Comparação rápida com abordagens conhecidas
- Atenção densa (Transformers clássicos): custo O(n²), precisa, mas proibitiva em contextos longos.
- Atenção esparsa (DeepSeek): reduz o custo, mas o indexador ainda é O(n²).
- Modelos de estado (Mamba, RWKV): O(n) com compressão lossy — falham em tarefas de recuperação fina.
- SSA: promete O(n) puro sem perda de precisão, com 92,1% de acerto no teste needle-in-a-haystack com 12 milhões de tokens.
Nenhum artigo técnico foi publicado. Nenhum laboratório independente reproduziu os resultados. A arquitetura permanece fechada.
Benchmarks: números que agitam o mercado
A startup divulgou resultados comparativos que, se confirmados, reposicionam o estado da arte:
| Benchmark | Subquadratic | Concorrente Direto |
|---|---|---|
| MRCR v2 (recuperação) | 83 | 74 (GPT-5.5) |
| RULER 128K (raciocínio longo) | 97,1% | 94,8% (Claude Opus 4.6) |
| Needle-in-a-haystack 12M | 92,1% | N/A |
| SWE-Bench (codificação) | 82,4% | ~80% (modelos frontier) |
| Aceleração vs atenção densa (1M tokens) | 52x | — |
Por que os números pedem cautela
Três fragilidades enfraquecem a euforia:
- Execução única: devido ao alto custo de inferência, cada teste foi rodado uma única vez. Sem repetições não há significância estatística.
- Modelo pequeno: o CEO reconheceu que o protótipo é "way smaller than the big labs". A escalabilidade para centenas de bilhões de parâmetros é uma incógnita.
- SWE-Bench inflado: parte da vantagem em codificação pode vir do harness de avaliação, não da capacidade intrínseca do modelo.
O SSA é o único que promete custo linear e recuperação precisa simultaneamente. Mas a coluna da validação pública permanece em branco.
Riscos e o fantasma das promessas vazias
A história da IA está cheia de anúncios grandiosos que murcharam sob escrutínio. A Subquadratic enfrenta obstáculos que vão além da engenharia:
- Validação independente zero: o modelo só é acessível via API. Não há artigo, pesos abertos ou reprodução externa.
- Sombra da Magic.dev: a startup levantou US$ 500 milhões prometendo 100 milhões de tokens e desapareceu do radar. O padrão é familiar.
- Custo real da infraestrutura: o CEO reclama dos preços de neoclouds. A eficiência teórica pode não se traduzir em economia operacional.
- Caixa-preta: a recusa em abrir os pesos trava auditorias de segurança, adoção open-source e escrutínio científico.
O cemitério de startups que prometeram atenção linear é extenso. O hype é abundante; a validação, escassa.
Se for real, o jogo muda para os gigantes
Assumindo que a tecnologia se prove escalável, o impacto seria imediato. Contextos longos deixariam de ser um luxo para se tornar infraestrutura básica em:
- Codificação assistida em bases de código inteiras
- Análise de processos jurídicos com milhares de páginas
- Pesquisa semântica em pilhas de documentos corporativos
A Subquadratic, com valuation de US$ 500 milhões, é pequena para competir sozinha, mas tem o tamanho ideal para ser adquirida por Microsoft, Google ou Amazon — repetindo o script de Inflection e DeepMind.
A tecnologia pode ser real, mas o modelo atual é um proof of concept para janelas de 12 milhões de tokens, não uma solução em escala frontier. A prova definitiva virá com o modelo grande prometido para 2025.
Comparação direta entre arquiteturas
| Arquitetura | Custo de Atenção | Recuperação Precisa | Validação Pública |
|---|---|---|---|
| Atenção densa (Transformers) | O(n²) | ✅ | ✅ Ampla |
| DeepSeek Sparse Attention | O(n²) no indexador | ✅ | ✅ Benchmarks |
| Mamba / RWKV | O(n) | ❌ (compressão lossy) | ✅ Moderada |
| Subquadratic SSA | O(n) puro | ✅ (92,1% em 12M) | ❌ Nenhuma |
A posição do SSA é solitária: é o único que preenche custo linear e precisão simultaneamente. A lacuna de validação, no entanto, mantém tudo no campo das possibilidades.
O futuro do contexto longo
O anúncio da Subquadratic é um termômetro do amadurecimento da indústria. Estamos saindo das teorias de atenção subquadrática e entrando em produtos concretos. O cenário para os próximos meses:
- Validação independente definirá o destino do SSA. Sem ela, a tecnologia não entra no radar das grandes decisões.
- Meta de 50 milhões de tokens no Q4 é agressiva, mas plausível se a linearidade for real. Isso viabilizaria análise de livros inteiros e jurisprudências complexas.
- Aquisição estratégica: os gigantes monitoram de perto. Internalizar a tecnologia antes que ela vire ameaça é o movimento padrão.
- GPT-5.5 e Claude Opus 4.6 mostram que a corrida por contexto longo está longe de acabar — e ninguém vai dormir no ponto.
O custo de validar é baixo: qualquer laboratório com acesso à API pode testar a recuperação em contextos longos. Enquanto essa revalidação não acontece, a Subquadratic segue como uma aposta de alto risco e potencial transformador. O conselho permanece: confira os números, desconfie do hype.