4 min de leitura

Cloudflare contra o caos: a resposta que salvou a internet alemã de um colapso no DNS

Cloudflare contra o caos: a resposta que salvou a internet alemã de um colapso no DNS

Em 5 de maio de 2026, um erro na rotação de chaves DNSSEC do TLD .de transformou milhões de domínios alemães em endereços mortos. A Cloudflare precisou escolher entre quebrar a segurança ou derrubar a web. A decisão mudou a forma como engenheiros pensam sobre resiliência de DNS.

O momento em que a web alemã parou

Às 19:30 UTC, a DENIC, operadora do .de, executou uma rotação de chaves KSK. Por um erro de procedimento, as assinaturas RRSIG publicadas não correspondiam à DNSKEY pública no zone apex. Para qualquer resolvedor que valida DNSSEC — incluindo 1.1.1.1 da Cloudflare, Google Public DNS e Quad9 — a reação foi automática: SERVFAIL.

Não foi um DDoS. Não foi um ataque cibernético. Foi uma falha estrutural da hierarquia DNS: um erro no topo da cadeia (o TLD) quebra tudo abaixo, independentemente de onde os domínios estão hospedados.

O que é SERVFAIL? É o código de resposta que um resolvedor DNS retorna quando não consegue validar uma resposta. No caso do DNSSEC, significa que a assinatura criptográfica está quebrada.

Cronologia técnica do incidente

A rotação de chaves gerou assinaturas RRSIG que não batiam com a chave pública no topo do .de. Resolvedores validadores, seguindo a RFC 4035, rejeitaram a resposta e retornaram SERVFAIL. O resultado foi imediato:

  • Milhões de domínios .de afetados globalmente
  • Taxa de SERVFAIL no 1.1.1.1 para consultas .de subiu de <0,1% para >90% no pico
  • Duração total até mitigação: aproximadamente 3 horas
"Foi um erro de procedimento, não de software. Um ser humano apertou o botão errado na hora errada." — Relatório interno da DENIC (não oficial)

As duas linhas de defesa da Cloudflare

A equipe da Cloudflare reagiu em duas fases, cada uma com seus trade-offs e complexidades técnicas.

Fase 1: Serve-Stale (RFC 8767)

Assim que o incidente foi detectado, ativaram o mecanismo serve-stale. Esse comportamento permite que um resolvedor sirva registros em cache mesmo após a expiração do TTL, quando a autoridade falha ou (neste caso) a validação quebra.

Como funcionou:

  • Registros .de no cache do 1.1.1.1 continuaram sendo servidos por até 30 minutos extras
  • Domínios com TTL longo (86400s) foram protegidos automaticamente
  • Domínios com TTL curto (60s) sofreram mais — o cache secou rapidamente

Limitação crítica: Serve-stale só protege consultas que já estavam em cache. Domínios sem cache prévio ou consultas novas continuavam caindo em SERVFAIL.

Fase 2: Negative Trust Anchor (NTA) via override

A solução definitiva veio com a aplicação manual de uma Negative Trust Anchor (NTA), conforme a RFC 7646. Uma NTA instrui o resolvedor a não validar DNSSEC para uma região específica — neste caso, todo o TLD .de.

Problema: o 1.1.1.1 não tinha suporte nativo a NTA naquela versão. A equipe usou um mecanismo de override de zona como equivalente funcional.

"Foi uma decisão consciente de priorizar disponibilidade sobre segurança — mas com plena ciência dos riscos." — Relatório pós‑incidente da Cloudflare

O bug descoberto: Extended DNS Errors (EDE)

Durante a análise, a equipe identificou um bug no 1.1.1.1: ao encontrar uma resposta DNSSEC inválida, o resolvedor retornava EDE 22 (No Reachable Authority) em vez do correto EDE 6 (DNSSEC Bogus).

Impacto do bug:

  • Dificultou o diagnóstico rápido por operadores que monitoram EDEs
  • Pode ter prolongado a investigação inicial
  • Requer correção em versões futuras do software do resolvedor

Lição prática: Teste rotineiramente a correção dos códigos EDE em seus resolvedores. Um erro de diagnóstico pode custar minutos preciosos em um incidente.

Lições para a indústria

1. A cadeia de confiança DNSSEC é frágil por natureza

Um erro em um único operador de TLD pode derrubar milhões de domínios. A resiliência não pode depender apenas do DNSSEC — é preciso ter mecanismos de bypass controlados já prontos para incidentes.

2. Mitigações têm trade‑offs claros

Mecanismo Segurança Disponibilidade Complexidade
Serve‑stale (RFC 8767) Mantém validação Protege caches existentes Operacional baixa
NTA (RFC 7646) Desabilita validação Restaura totalmente Requer coordenação com operador do TLD

3. Comunicação entre operadores é vital

A coordenação via DNS‑OARC permitiu que Cloudflare, Google, Quad9 e outros operadores alinhassem estratégias rapidamente. A DENIC se comunicou de forma transparente, o que acelerou a confiança na mitigação.

4. EDEs precisam de rigor

O bug dos Extended DNS Errors mostra que até mecanismos de diagnóstico avançados podem falhar. Operadores devem testar rotineiramente a correção dos códigos EDE em seus resolvedores.

Implicações de mercado

Para operadores de DNS e CDNs

  • Implementar NTA nativamente não é mais opcional — é requisito de resiliência
  • Serve‑stale deve ser padrão, com configuração de tempo máximo ajustável
  • Testar resposta a incidentes de DNSSEC em TLDs é tão importante quanto testar DDoS

Para clientes corporativos

Organizações que dependem de DNSSEC para compliance (ex: setor financeiro europeu) devem:

  • Exigir SLAs de resposta para incidentes de TLD em seus provedores de DNS
  • Avaliar o impacto de desabilitar validação temporariamente — e documentar o risco aceito
  • Manter canais de comunicação diretos com operadores de resolvedores

Para a comunidade técnica

O incidente reforça a necessidade de:

  • Automação de mitigações (ex: NTA automática ao detectar padrão de SERVFAIL massivo)
  • Transparência pós‑incidente como prática cultural — a DENIC e a Cloudflare deram exemplo
  • Investimento contínuo em canais como DNS‑OARC

Riscos e limitações da abordagem

Nenhuma mitigação é perfeita. É importante reconhecer os riscos assumidos:

  • Ao desabilitar DNSSEC via NTA, domínios .de ficaram vulneráveis a spoofing e envenenamento de cache durante a janela de mitigação
  • A solução de override (equivalente funcional de NTA) não é formalmente definida — pode ter efeitos colaterais imprevistos em ambientes complexos
  • O bug nos EDEs atrasou o diagnóstico e pode se repetir em incidentes futuros se não corrigido
  • Serve‑stale é limitado pelo TTL original — domínios com TTLs curtos (como registros A de balanceamento de carga) foram mais afetados

Visão Metatron

O incidente do .de em 2026 será estudado em livros de engenharia de infraestrutura como um caso clássico de falha em camada fundamental — e de resposta coordenada que equilibrou riscos com maestria.

A verdadeira lição vai além do DNSSEC: qualquer sistema que depende de uma autoridade única no topo da hierarquia herda sua fragilidade. O futuro aponta para arquiteturas de DNS mais distribuídas, onde:

  • A validação pode ser delegada a múltiplos caminhos (ex: validação por partes)
  • NTAs são automáticas e reversíveis, baseadas em heurísticas de consenso entre operadores
  • Extended DNS Errors tornam‑se padrão rigoroso, exigidos por SLAs
Seu provedor de DNS está preparado para um erro no TLD .com? Porque, como vimos, não é questão de se — mas de quando.

Quer proteger sua infraestrutura contra esse tipo de falha? Avalie seu provedor de DNS hoje mesmo — exija suporte nativo a NTA, serve‑stale configurável e transparência pós‑incidente.