GKE Active Buffer: Fim dos Atrasos de Provisionamento

Sistemas modernos nativos da nuvem foram feitos para escalar, mas é a velocidade dessa escala que costuma definir se seus usuários vão ter uma experiência fluida ou cheia de atrasos frustrantes. Seja um site de varejo numa promoção relâmpago, uma plataforma de games recebendo uma onda de jogadores ou um serviço de inferência de IA processando um lote repentino de requisições, a infraestrutura precisa responder em segundos — e não nos minutos que o hardware leva para acompanhar.

O GKE oferece há tempos ferramentas poderosas, como o Cluster Autoscaler e o Horizontal Pod Autoscaler (HPA), para lidar com essas variações. Mesmo assim, até os clusters mais otimizados sempre esbarraram em um problema fundamental: a latência de provisionamento de nós.

Conforme os workloads crescem, vários fatores agravam o tempo de espera:

Inicialização do nó: entrar no cluster e iniciar os DaemonSets.
Image Pulls: baixar imagens de container de vários gigabytes.
Aquecimento da aplicação: inicializar o estado da aplicação ou carregar modelos de IA na memória da GPU.

Em workloads de larga escala, esses atrasos podem deixar pods pendentes por vários minutos, levando ao descumprimento de SLOs e a uma experiência ruim para o usuário.

Os contornos antigos e por que eles não bastam

Tradicionalmente, os usuários do GKE recorriam a duas soluções imperfeitas para lidar com a latência de scale-out:

Over-provisioning com targets de HPA mais baixos: ao definir limites conservadores de utilização do HPA, mantém-se uma folga extra no cluster o tempo todo. A desvantagem: os custos sobem linearmente conforme o workload cresce. Um cluster que opera sempre a 60% de utilização em vez de 80% pode custar de 20% a 30% a mais em deployments grandes.

Balloon pods: consiste em implantar pods de baixa prioridade que ocupam capacidade nos nós, prontos para serem despejados quando os workloads reais precisarem rodar. Quando os workloads-alvo escalam, o GKE despeja esses pods de menor prioridade e agenda as novas réplicas em seu lugar. Apesar de eficaz, esse padrão exige uma configuração cuidadosa de PriorityClass e ajustes constantes — se os limites se desalinharem com a evolução do tráfego, a proteção se degrada silenciosamente.

As duas abordagens têm um problema mais profundo em comum: exigem atenção operacional contínua para continuarem eficazes à medida que o tráfego de produção evolui.

Conheça os GKE Capacity Buffers

Em 1º de abril de 2026, o Google anunciou a prévia do active buffer para o GKE, uma implementação nativa no GKE da CapacityBuffer API do Kubernetes OSS.

Em vez de gerenciar PriorityClasses complexas e deployments de placeholders, os usuários definem seus requisitos por meio de um Custom Resource CapacityBuffer. Isso instrui o GKE Cluster Autoscaler a manter, o tempo todo, uma rede de segurança de capacidade pré-aquecida e ociosa.

Como funcionam os Active Buffers

O GKE Cluster Autoscaler trata o CapacityBuffer como demanda pendente. Ele reserva capacidade usando pods virtuais e inexistentes — que o autoscaler acompanha como demanda pendente, garantindo que os nós sejam provisionados com antecedência. Quando o workload-alvo escala, o GKE o agenda imediatamente na capacidade de buffer disponível — sem atraso de provisionamento.

Em seguida, o buffer volta ao estado pendente, acionando o autoscaler para provisionar um buffer substituto em segundo plano.

Estratégias flexíveis de buffering

O Active Buffer oferece três formas flexíveis de definir quanta capacidade de reserva manter:

1. Réplicas fixas

A opção mais simples. Mantém um número constante e conhecido de unidades de buffer, independentemente do tamanho do workload.

apiVersion: autoscaling.x-k8s.io/v1beta1
kind: CapacityBuffer
metadata:
  name: fixed-replica-buffer
  namespace: my-app
spec:
  podTemplateRef:
    name: buffer-unit-template
  replicas: 3

Isso diz ao GKE: mantenha sempre capacidade pronta para 3 pods desse tamanho.

2. Baseado em porcentagem

O buffer escala proporcionalmente a um workload existente. À medida que o deployment de produção cresce, o buffer cresce junto — sem ajustes manuais.

apiVersion: autoscaling.x-k8s.io/v1beta1
kind: CapacityBuffer
metadata:
  name: percentage-buffer
  namespace: my-app
spec:
  scalableRef:
    apiGroup: apps
    kind: Deployment
    name: my-production-deployment
  percentage: 20

Se o deployment escalar de 50 para 100 réplicas, o buffer ajusta automaticamente de 10 para 20 unidades.

3. Limites de recursos

Defina um teto rígido para o total de recursos de computação que o buffer pode consumir, mantendo os custos previsíveis. O GKE calcula quantos pods de buffer manter com base nos resource requests do PodTemplate e nos limites definidos.

apiVersion: autoscaling.x-k8s.io/v1beta1
kind: CapacityBuffer
metadata:
  name: resource-limit-buffer
  namespace: my-app
spec:
  podTemplateRef:
    name: buffer-unit-template
  limits:
    cpu: "20"
    memory: "20Gi"

Quem deve usar o Active Buffer?

O active buffer é ideal para workloads sensíveis à latência que precisam de scale-up rápido:

Serviços de inferência de IA — em que a latência de cold-start se traduz diretamente em uma experiência degradada ou em SLOs descumpridos.
Aplicações de varejo durante eventos promocionais — flash sales, lançamentos limitados ou picos sazonais em que o tráfego pode multiplicar em segundos.
Serviços financeiros — abertura/fechamento de mercado, processamento de fim de dia.
Plataformas de games — picos de atividade dos jogadores, lançamentos de jogos programados.
APIs em tempo real — qualquer serviço cuja latência para o usuário final esteja prevista em contrato.

O active buffer não é recomendado para jobs de processamento em batch nem para workloads insensíveis à latência de startup.

A configuração avançada: Active Buffer + Custom Compute Classes

O active buffer fica ainda mais poderoso quando combinado com as ComputeClasses do GKE — um custom resource do Kubernetes que descreve um conjunto priorizado de configurações de nó.

Quando o GKE faz autoscale e precisa provisionar novos nós, ele segue as regras de prioridade definidas na ComputeClass — recorrendo à próxima opção se o hardware preferido não estiver disponível.

Combinar uma ComputeClass com um capacity buffer faz com que a capacidade pré-aquecida fique exatamente no hardware de que o workload precisa — e não em qualquer nó disponível. Isso é especialmente valioso para workloads de inferência em GPU/TPU. Aplicações de serving de IA frequentemente exigem configurações específicas de aceleradores. Um capacity buffer genérico em nós de CPU padrão não vai ajudar se o seu workload precisa de uma GPU nvidia-l4.

O exemplo abaixo mantém três nós com GPU L4 pré-aquecidos, dando preferência a on-demand, mas recorrendo a Spot caso indisponível:

# ComputeClass targeting L4 GPUs with Spot VM fallback
apiVersion: cloud.google.com/v1
kind: ComputeClass
metadata:
  name: inference-compute
spec:
  nodePoolAutoCreation:
    enabled: true
  priorities:
  - gpu:
      type: nvidia-l4
      count: 1
    spot: false
  - gpu:
      type: nvidia-l4
      count: 1
    spot: true
  - machineFamily: n4
    minCores: 16
  whenUnsatisfiable: DoNotScaleUp
---
# PodTemplate requesting the ComputeClass for buffer pods
apiVersion: v1
kind: PodTemplate
metadata:
  name: inference-buffer-template
  namespace: inference-ns
template:
  metadata:
    labels:
      cloud.google.com/compute-class: inference-compute
  spec:
    terminationGracePeriodSeconds: 0
    nodeSelector:
      cloud.google.com/compute-class: inference-compute
    tolerations:
    - key: cloud.google.com/compute-class
      operator: Equal
      value: inference-compute
      effect: NoSchedule
    containers:
    - name: buffer-container
      image: registry.k8s.io/pause:3.9
      resources:
        requests:
          cpu: "4"
          memory: "16Gi"
---
# CapacityBuffer maintaining 3 pre-warmed inference-ready nodes
apiVersion: autoscaling.x-k8s.io/v1beta1
kind: CapacityBuffer
metadata:
  name: inference-buffer
  namespace: inference-ns
spec:
  podTemplateRef:
    name: inference-buffer-template
  replicas: 3

Indo além: embora os capacity buffers eliminem os atrasos no provisionamento de nós, eles não consideram o tempo de pull das imagens. Para alcançar latência abaixo de um segundo, recomendamos usar o Image Streaming em conjunto com o Active Buffer.

Requisitos e pré-requisitos

Antes de habilitar o Active Buffer, observe o seguinte:

Versão do GKE: requer cluster na versão 1.35.2-gke.1842000 ou superior.
Modelo de cobrança: compatível apenas com workloads que usam cobrança baseada em nó (não com cobrança baseada em Pod / Autopilot pay-per-Pod).
Node auto-provisioning: recomendado (mas não obrigatório) — permite que o autoscaler crie novos node pools ao reabastecer o buffer. Sem isso, o autoscaler só consegue escalar os node pools existentes.
Status de Preview: atualmente em Preview; sujeito aos Termos de Ofertas Pré-GA.

Considerações de custo

Embora o Active Buffer elimine a latência de escalonamento, ele tem um custo real por manter VMs ociosas em execução. Ainda assim, é bem mais eficiente do que o over-provisioning generalizado. Em vez de manter o cluster inteiro num desperdício de 60% de utilização, você pode levar os nós ativos a 80–90% e ainda assim manter um buffer de segurança enxuto e direcionado.

Dá para reduzir ainda mais os custos do buffer usando Spot VMs para atender às suas necessidades de capacidade. Como as Spot VMs são bem mais baratas que as instâncias on-demand, o overhead do buffer pode ser mínimo quando os workloads toleram risco de preempção.

Resumo

O Active Buffer é um passo importante rumo ao escalonamento abaixo de um segundo. Ao substituir a complexidade operacional dos balloon pods por um custom resource CapacityBuffer limpo e declarativo, o GKE oferece aos platform engineers uma forma nativa e sustentável de garantir capacidade pré-aquecida para workloads sensíveis à latência.

Confira o guia prático de capacity buffer do GKE para exemplos de configuração e boas práticas.