08 Mai 2026 4 min de leitura

Kubernetes v1.36: DRA Universal Agora Gerencia CPU, Memória e GPUs com Fallback Inteligente e MIG Nativo

Photo on Unsplash

O Dynamic Resource Allocation (DRA) do Kubernetes acaba de dar um salto de maturidade que transforma a gestão de hardware heterogêneo – de GPUs a CPU – em uma decisão inteligente e automatizada.

Kubernetes DRA alocando recursos heterogêneos em rack de datacenter

O que há de novo no DRA v1.36

Seis funcionalidades graduadas – uma stable, cinco beta – e seis novas capacidades alpha. O foco: tornar o DRA o motor único de alocação para qualquer recurso, de aceleradores a CPU e memória.

Stable: Lista Priorizada de Dispositivos

A prioritized list permite definir uma ordem de preferência entre modelos de GPU. Se um Pod solicita H100 e não há disponível, o scheduler faz fallback automático para A100, depois V100.

Elimina hardcoding de modelos nas especificações dos Pods.
Aumenta a utilização do cluster – GPUs ociosas não param.
Reduz complexidade operacional em frotas heterogêneas.

Exemplo prático: a lista priorizada é declarada diretamente no resourceClaims do Pod, sem necessidade de labels ou mutações externas.

Beta: Particionamento de Dispositivos

Partitionable devices oferece suporte nativo ao particionamento de aceleradores – como MIG (Multi-Instance GPU) da NVIDIA. Um único dispositivo físico se divide em instâncias lógicas, cada uma alocada a um Pod diferente.

Compartilhamento seguro com isolamento garantido pelo hardware.
Ideal para inferência em produção e ambientes multi-inquilinos.

Beta: Taints em Dispositivos

Inspirado em taints de nós, agora dispositivos também podem ser “taintados”. Um dispositivo com falha parcial ou reservado para uma equipe específica recebe um taint – só Pods com a toleration correspondente acessam.

Gerenciamento proativo de falhas: isole dispositivos degradados.
Reservas de hardware para cargas críticas.

Beta: Health Status de Recursos

A saúde de cada dispositivo é exposta no status do Pod. Operadores e autoscalers reagem a problemas sem depender de métricas externas.

Visibilidade imediata de dispositivos com falha.
Base para automação de reparos e realocações.

Alpha: Suporte a CPU e Memória via DRA

Com node allocatable resources, CPU e memória passam a ser gerenciados pelo mesmo framework. Alocação NUMA-aware e priorização fina de núcleos para workloads críticos.

Alpha: ResourcePoolStatus

Resource pool status expõe a capacidade disponível por pool – GPUs, slices MIG, núcleos de CPU. Planejamento de capacidade em tempo real.

Alpha: Device Metadata Padronizados

Atributos de hardware (modelo, firmware, temperatura) ficam disponíveis dentro dos containers via arquivos ou variáveis de ambiente. Sem dependência de APIs externas.

Alpha: Seleção Determinística de Dispositivos

Para workloads que exigem previsibilidade, a ordenação lexicográfica na escolha dos dispositivos garante idempotência – essencial para testes A/B e benchmarks.

Por que isso importa?

“O DRA está evoluindo de um mecanismo para aceleradores exóticos para um framework universal de alocação de recursos no Kubernetes.”

Simplifica o gerenciamento de GPUs para AI/ML: fallback inteligente, compartilhamento nativo, health checks integrados.
Abre caminho para substituir o Device Plugin – DRA se torna a camada única para qualquer recurso, de hardware especializado a CPU e memória.
Melhora a observabilidade com health status, resource pools e metadados padronizados.
Atrai workloads HPC e tempo real com suporte a topologia e alocação NUMA-aware.

O resultado: um gerenciador inteligente de hardware heterogêneo, capaz de decidir qual GPU alocar, como compartilhá-la, monitorar sua saúde e gerenciar CPU e memória com consciência de topologia.

Implicações Técnicas

Para operadores e SREs

Prioritized list elimina hardcoding – clusters heterogêneos sem retrabalho.
Partitionable devices suporta MIG sem drivers específicos.
Node allocatable resources estende DRA para CPU e memória com alocação NUMA-aware.
Deterministic device selection garante previsibilidade para testes.

Para desenvolvedores de workloads

Device metadata padroniza descoberta de atributos dentro dos containers.
Resource health status permite reação declarativa a falhas de hardware.
Device taints viabiliza reservas e isolamento para cargas críticas.

Implicações de Mercado

DRA se consolida como substituto do Device Plugin, reduzindo dependência de plugins proprietários.
Facilita operação de frotas heterogêneas de GPUs, beneficiando plataformas de AI/ML e inferência.
Extended resource support (beta) permite migração gradual de clusters legados.
Roadmap indica integração com scheduling aware de workload e topologia, atraindo HPC e tempo real.

Riscos e Limitações

Todas as funcionalidades alpha estão atrás de feature gates – exigem configuração manual e podem mudar.
Stability e performance em larga escala ainda precisam de validação prática.
Particionamento e taints dependem de suporte do driver – nem todo hardware está coberto.
Migração de Device Plugin para DRA é gradual e exige adaptações em drivers existentes.

Funcionalidade	Status	Benefício Principal
Lista Priorizada	Stable	Fallback automático entre modelos de GPU
Particionamento	Beta	Compartilhamento nativo com isolamento
Taints	Beta	Reservas e isolamento proativo
Health Status	Beta	Observabilidade sem métricas externas
CPU/Memória	Alpha	Alocação NUMA-aware via DRA

Visão Metatron

“O DRA no Kubernetes v1.36 não é apenas uma atualização técnica – é a consolidação de uma plataforma inteligente de orquestração de recursos heterogêneos.”

A convergência de fallback ordenado, compartilhamento nativo, monitoramento de saúde e suporte a CPU/memória transforma o Kubernetes em um sistema operacional distribuído para hardware diverso.

Para o ecossistema de AI/ML, isso significa menos atrito operacional, maior utilização de GPUs e capacidade de escalar inferência e treinamento com flexibilidade nunca antes vista.

O futuro aponta para um DRA que gerencia não apenas aceleradores, mas todos os recursos físicos e lógicos do cluster – de núcleos de CPU a aceleradores quânticos.

Mensagem clara: o Kubernetes está se preparando para ser o cérebro central de uma infraestrutura cada vez mais heterogênea e exigente. O DRA v1.36 é o passo mais sólido nessa direção.

Resumo Prático

Já em stable: lista priorizada de dispositivos – use sem medo.
Em beta: particionamento, taints e health status – teste e prepare adoção.
Em alpha: CPU/memória via DRA, resource pools, metadados e seleção determinística – habilite feature gates para experimentar.
Roadmap: DRA substituindo Device Plugin e atraindo HPC/tempo real.