Cloudflare contra o caos: a resposta que salvou a internet alemã de um colapso no DNS
Em 5 de maio de 2026, um erro na rotação de chaves DNSSEC do TLD .de transformou milhões de domínios alemães em endereços mortos. A Cloudflare precisou escolher entre quebrar a segurança ou derrubar a web. A decisão mudou a forma como engenheiros pensam sobre resiliência de DNS.
O momento em que a web alemã parou
Às 19:30 UTC, a DENIC, operadora do .de, executou uma rotação de chaves KSK. Por um erro de procedimento, as assinaturas RRSIG publicadas não correspondiam à DNSKEY pública no zone apex. Para qualquer resolvedor que valida DNSSEC — incluindo 1.1.1.1 da Cloudflare, Google Public DNS e Quad9 — a reação foi automática: SERVFAIL.
Não foi um DDoS. Não foi um ataque cibernético. Foi uma falha estrutural da hierarquia DNS: um erro no topo da cadeia (o TLD) quebra tudo abaixo, independentemente de onde os domínios estão hospedados.
O que é SERVFAIL? É o código de resposta que um resolvedor DNS retorna quando não consegue validar uma resposta. No caso do DNSSEC, significa que a assinatura criptográfica está quebrada.
Cronologia técnica do incidente
A rotação de chaves gerou assinaturas RRSIG que não batiam com a chave pública no topo do .de. Resolvedores validadores, seguindo a RFC 4035, rejeitaram a resposta e retornaram SERVFAIL. O resultado foi imediato:
- Milhões de domínios .de afetados globalmente
- Taxa de SERVFAIL no 1.1.1.1 para consultas .de subiu de <0,1% para >90% no pico
- Duração total até mitigação: aproximadamente 3 horas
"Foi um erro de procedimento, não de software. Um ser humano apertou o botão errado na hora errada." — Relatório interno da DENIC (não oficial)
As duas linhas de defesa da Cloudflare
A equipe da Cloudflare reagiu em duas fases, cada uma com seus trade-offs e complexidades técnicas.
Fase 1: Serve-Stale (RFC 8767)
Assim que o incidente foi detectado, ativaram o mecanismo serve-stale. Esse comportamento permite que um resolvedor sirva registros em cache mesmo após a expiração do TTL, quando a autoridade falha ou (neste caso) a validação quebra.
Como funcionou:
- Registros .de no cache do 1.1.1.1 continuaram sendo servidos por até 30 minutos extras
- Domínios com TTL longo (86400s) foram protegidos automaticamente
- Domínios com TTL curto (60s) sofreram mais — o cache secou rapidamente
Limitação crítica: Serve-stale só protege consultas que já estavam em cache. Domínios sem cache prévio ou consultas novas continuavam caindo em SERVFAIL.
Fase 2: Negative Trust Anchor (NTA) via override
A solução definitiva veio com a aplicação manual de uma Negative Trust Anchor (NTA), conforme a RFC 7646. Uma NTA instrui o resolvedor a não validar DNSSEC para uma região específica — neste caso, todo o TLD .de.
Problema: o 1.1.1.1 não tinha suporte nativo a NTA naquela versão. A equipe usou um mecanismo de override de zona como equivalente funcional.
"Foi uma decisão consciente de priorizar disponibilidade sobre segurança — mas com plena ciência dos riscos." — Relatório pós‑incidente da Cloudflare
O bug descoberto: Extended DNS Errors (EDE)
Durante a análise, a equipe identificou um bug no 1.1.1.1: ao encontrar uma resposta DNSSEC inválida, o resolvedor retornava EDE 22 (No Reachable Authority) em vez do correto EDE 6 (DNSSEC Bogus).
Impacto do bug:
- Dificultou o diagnóstico rápido por operadores que monitoram EDEs
- Pode ter prolongado a investigação inicial
- Requer correção em versões futuras do software do resolvedor
Lição prática: Teste rotineiramente a correção dos códigos EDE em seus resolvedores. Um erro de diagnóstico pode custar minutos preciosos em um incidente.
Lições para a indústria
1. A cadeia de confiança DNSSEC é frágil por natureza
Um erro em um único operador de TLD pode derrubar milhões de domínios. A resiliência não pode depender apenas do DNSSEC — é preciso ter mecanismos de bypass controlados já prontos para incidentes.
2. Mitigações têm trade‑offs claros
| Mecanismo | Segurança | Disponibilidade | Complexidade |
|---|---|---|---|
| Serve‑stale (RFC 8767) | Mantém validação | Protege caches existentes | Operacional baixa |
| NTA (RFC 7646) | Desabilita validação | Restaura totalmente | Requer coordenação com operador do TLD |
3. Comunicação entre operadores é vital
A coordenação via DNS‑OARC permitiu que Cloudflare, Google, Quad9 e outros operadores alinhassem estratégias rapidamente. A DENIC se comunicou de forma transparente, o que acelerou a confiança na mitigação.
4. EDEs precisam de rigor
O bug dos Extended DNS Errors mostra que até mecanismos de diagnóstico avançados podem falhar. Operadores devem testar rotineiramente a correção dos códigos EDE em seus resolvedores.
Implicações de mercado
Para operadores de DNS e CDNs
- Implementar NTA nativamente não é mais opcional — é requisito de resiliência
- Serve‑stale deve ser padrão, com configuração de tempo máximo ajustável
- Testar resposta a incidentes de DNSSEC em TLDs é tão importante quanto testar DDoS
Para clientes corporativos
Organizações que dependem de DNSSEC para compliance (ex: setor financeiro europeu) devem:
- Exigir SLAs de resposta para incidentes de TLD em seus provedores de DNS
- Avaliar o impacto de desabilitar validação temporariamente — e documentar o risco aceito
- Manter canais de comunicação diretos com operadores de resolvedores
Para a comunidade técnica
O incidente reforça a necessidade de:
- Automação de mitigações (ex: NTA automática ao detectar padrão de SERVFAIL massivo)
- Transparência pós‑incidente como prática cultural — a DENIC e a Cloudflare deram exemplo
- Investimento contínuo em canais como DNS‑OARC
Riscos e limitações da abordagem
Nenhuma mitigação é perfeita. É importante reconhecer os riscos assumidos:
- Ao desabilitar DNSSEC via NTA, domínios .de ficaram vulneráveis a spoofing e envenenamento de cache durante a janela de mitigação
- A solução de override (equivalente funcional de NTA) não é formalmente definida — pode ter efeitos colaterais imprevistos em ambientes complexos
- O bug nos EDEs atrasou o diagnóstico e pode se repetir em incidentes futuros se não corrigido
- Serve‑stale é limitado pelo TTL original — domínios com TTLs curtos (como registros A de balanceamento de carga) foram mais afetados
Visão Metatron
O incidente do .de em 2026 será estudado em livros de engenharia de infraestrutura como um caso clássico de falha em camada fundamental — e de resposta coordenada que equilibrou riscos com maestria.
A verdadeira lição vai além do DNSSEC: qualquer sistema que depende de uma autoridade única no topo da hierarquia herda sua fragilidade. O futuro aponta para arquiteturas de DNS mais distribuídas, onde:
- A validação pode ser delegada a múltiplos caminhos (ex: validação por partes)
- NTAs são automáticas e reversíveis, baseadas em heurísticas de consenso entre operadores
- Extended DNS Errors tornam‑se padrão rigoroso, exigidos por SLAs
Seu provedor de DNS está preparado para um erro no TLD .com? Porque, como vimos, não é questão de se — mas de quando.
Quer proteger sua infraestrutura contra esse tipo de falha? Avalie seu provedor de DNS hoje mesmo — exija suporte nativo a NTA, serve‑stale configurável e transparência pós‑incidente.