4 min de leitura

Apagão evitado: Cloudflare usou serve stale e Negative Trust Anchors para manter milhões de domínios .de acessíveis

Apagão evitado: Cloudflare usou serve stale e Negative Trust Anchors para manter milhões de domínios .de acessíveis

No dia 5 de maio de 2026, o ecossistema de nomes de domínio alemão sofreu um abalo silencioso, mas profundo. A DENIC publicou assinaturas DNSSEC incorretas durante uma troca de chaves, e resolvedores validadores começaram a retornar SERVFAIL. Milhões de domínios .de tornaram-se inacessíveis. Mas a Cloudflare respondeu com uma combinação engenhosa de serve stale e Negative Trust Anchors. Este é o manual operacional que todo operador de DNS deveria estudar.

Cloudflare data center with DNS servers

O que aconteceu: uma assinatura que quebrou a confiança global

O incidente começou quando a DENIC, ao realizar um key rollover de suas ZSK do TLD .de, gerou assinaturas RRSIG que não podiam ser validadas. Em termos simples: a chave usada para assinar a zona não correspondia mais ao conjunto de chaves públicas anunciadas, quebrando a cadeia de confiança.

Para resolvedores que validam DNSSEC rigorosamente, isso significa que toda consulta a qualquer domínio .de recebe uma resposta SERVFAIL. O resultado prático foi um apagão parcial da internet alemã para usuários que dependem de validação DNSSEC.

Frase de impacto: “Falhas no topo da cadeia DNSSEC podem ter efeitos cascata devastadores. Diferente de uma interrupção em um nameserver autoritativo, um erro no TLD compromete todos os domínios sob aquela extensão.”

A linha do tempo da mitigação da Cloudflare

  1. 16:00 UTC – Aumento anômalo de SERVFAIL para domínios .de no resolvedor 1.1.1.1.
  2. 16:10 UTC – Equipe confirma problema de validação DNSSEC no TLD.
  3. 16:15 UTC – Ativam o mecanismo serve stale, respondendo com dados em cache expirados.
  4. 22:17 UTC – Aplicam um Negative Trust Anchor manual, tratando .de como não segura.
  5. 23:00 UTC – DENIC corrige assinaturas; Cloudflare remove o NTA e restaura validação.

Por que isso importa: um único ponto de falha na hierarquia

O incidente demonstra que a dependência de um único operador de TLD para a integridade da cadeia de confiança é uma vulnerabilidade estrutural do modelo DNSSEC. A reação da Cloudflare mostra que a resiliência não está em evitar falhas, mas em mitigá-las rapidamente com mecanismos operacionais engenhosos.

"Resiliência não está em evitar falhas, mas em mitigá-las rapidamente com mecanismos operacionais engenhosos."

Implicações técnicas: serve stale, NTAs e o bug do EDE code

Serve stale (RFC 8767) — o primeiro escudo

O serve stale permite que um resolvedor responda com dados em cache mesmo após o TTL expirar, desde que a resposta seja marcada como "stale". No caso do .de, a Cloudflare usou o cache expirado (mas antes válido) para responder consultas, evitando o SERVFAIL. Isso comprou tempo — aproximadamente 6 horas — enquanto a equipe planejava a mitigação mais drástica.

Negative Trust Anchors (NTAs) — o override manual

Um Negative Trust Anchor instrui um resolvedor a tratar uma zona específica como não assegurada (insecure) durante a validação DNSSEC, ignorando a cadeia de confiança upstream. A Cloudflare utilizou um zone override manual, configurando o resolvedor para tratar .de como zona non-DNSSEC. Isso restaurou a acessibilidade total para domínios .de em 1.1.1.1.

Observação: A Cloudflare não implementou um NTA nativo (RFC 7646), mas utilizou um override manual — o que exigiu intervenção de engenharia.

O bug do EDE code

Durante a análise, a Cloudflare descobriu que seu resolvedor estava retornando o EDE code 22 (problema no servidor autoritativo) em vez do correto EDE code 6 (problema de validação DNSSEC). Esse bug atrasou o diagnóstico inicial. A correção foi incorporada ao pipeline de desenvolvimento.

Implicações de mercado: confiança e reputação em jogo

A transparência do post-mortem da Cloudflare reforça a confiança na sua plataforma. Operadores de DNS que documentam abertamente suas falhas e mitigações constroem credibilidade no mercado.

Para a DENIC, o incidente representa um risco reputacional significativo. A falha em um key rollover de TLD não é um erro trivial e pode levar a exigências de auditorias independentes.

  • Negative Trust Anchors como recurso padrão em resolvedores.
  • Serve stale como configuração recomendada para operadores críticos.
  • Mecanismos de coordenação rápida (como listas do DNS-OARC) para resposta a incidentes.

Riscos e limitações das mitigações

Apesar de eficaz, a abordagem da Cloudflare não é isenta de riscos:

Mitigação Risco / Limitação
Negative Trust Anchor (override) Desativa a segurança — abre janela para ataques man-in-the-middle durante a mitigação.
Coordenação manual Não escala em cenário com múltiplos TLDs falhando simultaneamente.
Implementação ad-hoc do NTA Não integrada ao pipeline de validação; exige intervenção manual de engenharia.
"Ao tratar uma zona como insegura, você abre uma janela para ataques man-in-the-middle durante o período de mitigação."

Visão Metatron: o futuro da resiliência DNSSEC

O incidente do .de cristaliza uma verdade incômoda: DNSSEC é frágil no topo. A cadeia de confiança que deveria proteger todos os domínios acaba sendo o elo mais fraco, justamente por ser centralizada em operadores de TLD.

A Visão Metatron para o futuro é um ecossistema onde cada resolvedor opera como um sistema imunológico distribuído. Isso significa:

  1. Negative Trust Anchors automatizados baseados em heurísticas e consenso da comunidade.
  2. Serve stale como padrão universal, com tempos configuráveis por zona.
  3. Códigos EDE obrigatórios e padronizados para diagnóstico instantâneo.
  4. Orquestração cross-TLD com health checks assinados publicados por operadores.

Por fim, o incidente nos lembra que resiliência não é eliminar falhas, mas tornar-se imune a elas.

Resumo prático

  • Implemente serve stale (RFC 8767) em todos os resolvedores críticos.
  • Tenha um procedimento documentado para aplicação de Negative Trust Anchors manuais ou automatizados.
  • Participe de listas de coordenação como DNS-OARC para resposta rápida.
  • Corrija bugs de EDE codes para acelerar diagnóstico em incidentes futuros.

Quer proteger sua infraestrutura DNS contra falhas no topo da hierarquia? Adote serve stale e NTAs como parte do seu playbook de resiliência. O modelo da Cloudflare já está disponível para implementação — estude o post-mortem e prepare seu sistema para o próximo key rollover problemático.