5 min de leitura

Subquadratic quebra barreira: modelo com 12M de tokens e atenção linear ameaça os frontiers?

Server room and cabling
Photo by Kier in Sight Archives on Unsplash
Arquitetura de atenção linear SSA em processador futurista com tons de azul e dourado

Por oito anos, cada avanço nos Transformers esbarrou no mesmo muro: o custo quadrático da atenção. Enquanto laboratórios bilionários contornavam o problema com atalhos, uma startup de Miami com 11 PhDs e US$ 29 milhões acaba de apresentar uma arquitetura que escala linearmente até 12 milhões de tokens — e já desafia GPT‑5.5 e Opus 4.6 em benchmarks reais. Mas a pergunta que ninguém quer calar é: vamos repetir o efeito Magic.dev ou estamos diante do verdadeiro fim da atenção densa?

O gargalo que limitou uma geração inteira de modelos

Desde Attention is All You Need, cada token adicional no contexto multiplica o custo computacional. Em janelas curtas, a diferença é imperceptível. Em documentos jurídicos de 500 páginas, repositórios com milhões de linhas ou agentes autônomos com memória de semanas, a matemática O(n²) se torna economicamente proibitiva.

As tentativas de fuga foram engenhosas, mas incompletas:

  • Atenção esparsa fixa (Longformer, BigBird): remove conexões, mas sacrifica precisão semântica em decisões irreversíveis.
  • Modelos de espaço de estados (Mamba, RWKV): trocam contexto denso por recorrência, comprimindo o passado com perda de detalhes.
  • Híbridos (Jamba, Kimi Linear): intercalam camadas eficientes com camadas densas — e ainda pagam o preço quadrático nestas últimas.
  • Indexadores esparsos (DeepSeek DSA): adicionam uma camada extra de consulta, escondendo complexidade sob novo overhead.

Nenhuma dessas abordagens conseguiu escalar linearmente sem perda de qualidade ou aumento oculto de complexidade. O gargalo permanecia intacto. Até agora.

SSA: a primeira arquitetura puramente subquadrática

A Subquadratic Selective Attention (SSA) resolve o que as abordagens anteriores apenas contornavam. Em vez de varrer toda a matriz de atenção — ou removê-la às cegas —, o SSA aprende a selecionar dinamicamente subconjuntos de posições relevantes para cada consulta, sem jamais construir a matriz densa que exige O(n²).

Escalabilidade O(n) em computação e memória, preservando a capacidade de selecionar dinamicamente quais tokens atender — sem indexadores quadráticos, sem as armadilhas da esparsidade fixa.

A diferença crucial está na pureza arquitetural. Enquanto modelos como Jamba alternam blocos eficientes com blocos densos, o SSA é completamente linear em todas as camadas. Isso não apenas torna a inferência previsível, mas também estabiliza o treinamento para contextos extremamente longos — um problema crônico em arquiteturas híbridas.

A Subquadratic foi fundada em Miami, reúne 11 PhDs e já levantou US$ 29 milhões com valuation de US$ 500 milhões — um otimismo que o mercado só justificará com adoção real.

Benchmarks: o que os números realmente mostram

Os resultados divulgados são agressivos. A startup posiciona seu modelo diretamente contra gigantes muito maiores:

Benchmark Resultado SSA Comparação direta
Velocidade em 1M tokens 52× mais rápido vs. atenção densa convencional
Needle-in-a-haystack (12M tokens) 92,1%
MRCR v2 (raciocínio com contexto) 83 Supera GPT‑5.5
SWE-bench (programação) 82,4% Supera Opus 4.6

Além dos números, a empresa já oferece API do modelo base, o agente de código SubQ Code — que processa repositórios completos em uma única janela — e o SubQ Search para pesquisa em contextos longos nos domínios jurídico e científico. E promete 50 milhões de tokens de contexto até o Q4 de 2026.

Por que o ceticismo não é opcional — é obrigatório

O próprio artigo técnico reconhece uma fragilidade: cada modelo foi testado apenas uma vez nos benchmarks mais caros. Em um needle-in-a-haystack com 12 milhões de tokens, uma oscilação de 2% a 3% pode reordenar completamente os líderes — e sem repetições, não há controle estatístico sobre essa variância.

A assimetria de escala incomoda

O modelo da Subquadratic é significativamente menor que GPT‑5.5 e Opus 4.6, ambos com centenas de bilhões de parâmetros. Vitórias em benchmarks específicos podem refletir mais otimização de fine-tuning direcionada do que superioridade arquitetural generalizada — um fenômeno já conhecido em modelos pequenos ajustados para testes estreitos.

O fantasma da Magic.dev

Em 2024, a Magic anunciou eficiência 1.000× superior à atenção densa, janela de 100 milhões de tokens e levantou US$ 500 milhões. Nenhum produto público foi lançado até hoje. O mercado aprendeu que promessas de contexto infinito são baratas; validação independente e adoção real são caras — e raras.

Com US$ 29 milhões em caixa e valuation de US$ 500 milhões, a Subquadratic ainda não tem o oxigênio financeiro para queimar. Sua credibilidade depende inteiramente de benchmarks auditados e clientes reais.

O que muda na prática se o SSA for real

Se os resultados forem replicados por terceiros, as consequências técnicas e de mercado serão profundas:

Impactos técnicos

  • Atenção verdadeiramente linear em contexto: janelas de 12 a 100 milhões de tokens com custo previsível — quase equivalente a processar 10 mil tokens hoje.
  • Seleção dependente do conteúdo sem penalidade: ao contrário da esparsidade fixa, o SSA foca em detalhes específicos sem perder informações cruciais.
  • Decadência das arquiteturas híbridas: se um modelo puramente linear iguala os frontiers, não há razão para manter camadas densas. Modelos como Llama 4 podem se tornar obsoletos.
  • Potencial de substituição da atenção densa: OpenAI, Google e Anthropic dificilmente ignorarão uma economia de 52× em contextos longos.

Impactos de mercado

  • Inferência de contexto longo vira commodity: due diligence jurídica, auditoria documental e revisão completa de código deixam de ser economicamente proibitivas.
  • Pressão sobre hyperscalers: rodando em neoclouds mais baratas, a Subquadratic força AWS, Google e Microsoft a reduzir preços ou acelerar pesquisas em arquiteturas lineares.
  • Novo paradigma para agentes de código: o SubQ Code processa repositórios completos sem RAG, chunking ou resumos — rivalizando diretamente com GitHub Copilot e Cursor.

Riscos e zonas de sombra

Nenhuma tecnologia radical chega sem contrapartidas:

  • Benchmarks sem repetição: a falta de controle de variância pode mascarar desempenho real inferior.
  • Margens estreitas demais: 0,6 ponto no SWE-bench pode ser artefato do harness de avaliação.
  • Dependência de neoclouds: provedores alternativos podem não oferecer a latência, disponibilidade ou certificações de segurança exigidas por grandes corporações.
  • Efeito Magic.dev: o mercado tratará qualquer promessa de contexto gigante com ceticismo automático até ver resultados confirmados por laboratórios independentes.

O futuro da atenção é linear — mas o presente ainda está em julgamento

A Subquadratic não inventou a busca por atenção linear. Mas o SSA ataca o ponto que todas as outras abordagens deixaram em aberto: seleção dinâmica de tokens sem custo quadrático no índice de seleção. Se validado em escala, isso não é uma melhoria incremental — é o marco que separa a era dos contextos limitados da era dos contextos verdadeiramente ilimitados.

Não mais precisaremos de RAG, de decomposições agênticas, de janelas deslizantes. Um único modelo lerá um livro de 10 mil páginas, analisará uma base de código inteira ou manterá uma conversa de meses com memória fidedigna.

A verdadeira revolução não está em ter 12 milhões de tokens de contexto, mas em saber o que fazer com eles.

Resumo prático: O SSA representa a tentativa mais séria até hoje de romper o gargalo quadrático sem sacrificar qualidade. Mas a diferença entre um paper brilhante e um produto transformador ainda é medida em benchmarks independentes, clientes pagantes e tempo. O Q4 de 2026 — com a promessa de 50 milhões de tokens — será o teste de fogo. Até lá, a comunidade observa com esperança e memória recente. Porque, no fim, o único benchmark que realmente importa é o da adoção real.

O SSA pode reescrever as regras da atenção em modelos de linguagem. Se você trabalha com contextos longos — código, documentos jurídicos, pesquisa científica —, este é o momento de acompanhar de perto. Assine nossa newsletter para análises técnicas aprofundadas e atualizações sobre o caso Subquadratic.