Sinais de disponibilidade de Spot VMs no GCP

As Spot VMs do GCP são uma das alavancas de custo mais eficazes em infraestrutura de nuvem — oferecem até 91% de desconto sobre o preço padrão sob demanda ao aproveitar a capacidade ociosa do Compute Engine, que de outra forma ficaria sem uso.

O trade-off é conhecido: o Compute Engine pode recuperar Spot VMs a qualquer momento. Quando a preempção acontece, o GCP envia um sinal de término e inicia um período de desligamento de 30 segundos, em regime de melhor esforço, para que sua VM pare de forma controlada antes de ser encerrada. Também há um aviso de preempção de 120 segundos disponível em Preview para workloads que precisam de mais tempo para drenar.

O que não estava tão claro — até pouco tempo — era se um determinado tipo de máquina, em uma zona específica, estaria mesmo disponível quando você precisasse.

O problema: provisionar às cegas

Gerenciar Spot VMs em escala era frustrante porque não havia jeito confiável de verificar a capacidade da zona com antecedência. Você subia seu Managed Instance Group, pedia a criação ou o escalonamento e só descobria se a zona tinha recursos suficientes depois do fato. Qualquer problema de disponibilidade aparecia como falha de provisionamento, deixando os times na dúvida se esperavam, tentavam de novo ou partiam para alternativas.

A escolha da zona sofria do mesmo mal. A disponibilidade não depende só da região, mas das zonas individuais dentro dela. Sem dados, os times acabavam recorrendo às zonas de sempre em vez das que tinham mais capacidade disponível.

O resultado era um ciclo reativo:

Requisições de provisionamento com falha só expunham os problemas de disponibilidade depois de ocorridos.
A escolha da zona era chute, não uma decisão informada.
A frequência de preempção era opaca, sem nenhum sinal sobre a estabilidade de um tipo de máquina em determinada localidade.
O planejamento de custos ficava difícil sem visibilidade das tendências de preço combinadas ao risco de preempção.

O que mudou: sinais de disponibilidade em tempo real

O GCP lançou sinais de disponibilidade em tempo real para Spot VMs pela API advice.capacity, agora em Public Preview. Antes de partir para o provisionamento, dá para consultar duas métricas-chave para um tipo de máquina e uma zona específicos.

1. Score de obtenção (obtainability)

Um valor numérico que indica a probabilidade de a sua solicitação de criação de Spot VM ser bem-sucedida, com base na disponibilidade atual de recursos e nas taxas recentes de sucesso na criação.

Score	Sinal
`0.7 – 1.0`	Alto — probabilidade alta de sucesso
`0.4 – 0.6`	Médio — probabilidade moderada; a criação em massa pode ser atendida parcialmente
`0.0 – 0.3`	Baixo — pouco provável ter sucesso; considere outra zona, região ou tipo de máquina

Os scores de obtenção não são garantias. A capacidade pode mudar entre o momento da consulta e o do provisionamento.

2. Uptime estimado

A duração mínima esperada em que a maior parte das suas Spot VMs deve rodar antes da preempção, calculada a partir de padrões de uso históricos e atuais.

Uptime estimado	O que significa
60 minutos (3.600s)	Bom para workloads batch mais longos que toleram interrupções ocasionais
10 minutos (600s)	Use apenas para tarefas curtas ou workloads que fazem checkpoint com frequência
1 minuto (60s)	Só para testes ou trabalhos não críticos; considere outra zona ou tipo de máquina

O uptime estimado não é uma garantia. As VMs podem rodar por mais ou menos tempo do que o previsto.

Como usar o recurso

O Capacity Advisor do Console para Spot é a forma mais rápida de ter uma visão combinada — obtenção em tempo real e taxa histórica de preempção lado a lado, em uma única interface. Já o gcloud separa esses dados em comandos distintos, mais voltados para scripts ou automação.

Pelo Console (Capacity Advisor para Spot)

No Console do GCP, acesse Compute Engine → Capacity Advisor. Selecione região, família de máquinas, série e tipo de máquina, e clique em Search.

As visualizações de Mapa e Lista mostram os sinais de disponibilidade por região e por zona, junto com as taxas históricas de preempção e o preço Spot atual. Para comparar a disponibilidade entre várias séries de máquinas, tipos e regiões ao mesmo tempo, use essa visão do console em vez do CLI.

A captura de tela abaixo mostra us-central1 consultada para uma Spot VM e2-medium — alta disponibilidade e taxa histórica de preempção de 0–5% nas quatro zonas (us-central1-a, -b, -c, -f), com preço Spot atual de $0.027664/hr.

Via gcloud

Disponibilidade em tempo real e uptime estimado:

gcloud beta compute advice capacity \
    --provisioning-model=SPOT \
    --instance-selection-machine-types=MACHINE_TYPES \
    --target-distribution-shape=TARGET_DISTRIBUTION_SHAPE \
    --size=SIZE \
    --region=REGION

A resposta traz o score obtainability e o estimatedUptime para a configuração solicitada.

Exemplo de saída:

recommendations:
- scores:
    estimatedUptime: 3600s
    obtainability: 0.9
  shards:
  - instanceCount: 10
    machineType: e2-medium
    provisioningModel: SPOT
    zone: https://www.googleapis.com/compute/beta/projects/chimbuc-playground/zones/us-central1-f

Taxa histórica de preempção e preços:

O comando capacity-history retorna as taxas diárias de preempção e o histórico de preços para um tipo de máquina e uma zona específicos:

gcloud beta compute advice capacity-history \
  --provisioning-model=SPOT \
  --machine-type=e2-medium \
  --types=PREEMPTION,PRICE \
  --region=us-central1

Exemplo de saída:

location: https://www.googleapis.com/compute/beta/projects/chimbuc-playground/regions/us-central1
machineType: e2-medium
preemptionHistory:
- interval:
    endTime: '2026-06-23T07:00:00Z'
    startTime: '2026-03-25T07:00:00Z'
  preemptionRate: 0.0
priceHistory:
- interval:
    endTime: '2026-04-12T07:00:00Z'
    startTime: '2026-04-08T07:00:00Z'
  listPrice:
    currencyCode: USD
    nanos: 26752000
- interval:
    endTime: '2026-06-16T07:00:00Z'
    startTime: '2026-04-12T07:00:00Z'
  listPrice:
    currencyCode: USD
    nanos: 27664000

Use capacity para embasar a escolha de zona e tipo de máquina antes do provisionamento; use capacity-history para entender a estabilidade de longo prazo e a volatilidade de preços ao planejar a arquitetura dos workloads ou o orçamento de FinOps.

Limitações

A disponibilidade de TPU não pode ser consultada pela API advice.capacity.
As zonas de IA entram nas recomendações por padrão — confirme se elas estão habilitadas no seu projeto antes de agir com base nas sugestões.
Para consultar a disponibilidade de VMs com GPU N1 ou discos SSD locais que não vêm anexados a um tipo de máquina por padrão, use a API REST diretamente.
Scores e estimativas de uptime não são garantias; a capacidade pode variar entre a hora da consulta e a hora da criação.

Boas práticas

Compare entre tipos de máquina. Se o seu workload for flexível, compare as saídas entre configurações — por exemplo, 100 × n1-standard-2 vs 50 × n1-standard-4. Escolha a configuração que equilibra obtenção e uptime estimado conforme a sua necessidade.
Compare entre localidades. Se o seu workload pode rodar em várias regiões ou zonas, verifique a disponibilidade em cada uma. Quando duas regiões oferecem uptime estimado parecido, prefira a de maior score de obtenção.
Distribua entre zonas. Com uma distribuição do tipo ANY ou BALANCED em um MIG regional, a API pode recomendar dividir as VMs entre zonas para maximizar o sucesso da criação — por exemplo, 90 VMs em uma zona e 10 em outra, em vez das 100 em uma única zona.
Reavalie periodicamente. A disponibilidade de Spot muda conforme a demanda em todo o GCP. Inclua uma checagem periódica de disponibilidade no seu ciclo de gestão de MIG ou de revisão de node pools do GKE.

Resumo

Provisionar Spot VMs sem antes checar a disponibilidade é o mesmo que dirigir sem mapa. A API advice.capacity coloca o mapa na sua mão. Não existe bom motivo para pular a consulta.

Antes de escrever um template de instância, antes de rodar terraform apply, antes de escalar um MIG — faça a checagem. Ela mostra se a zona vai entregar VMs e por quanto tempo elas provavelmente vão ficar no ar. Esse sinal deve guiar a sua escolha de zona, o tipo de máquina e o intervalo de checkpoint.

As Spot VMs seguem como uma das melhores alavancas de custo no GCP. O desconto de 91% é real. O risco de preempção também é real — mas agora é um risco conhecido e consultável, não mais um tiro no escuro.

Consulte primeiro. Escolha com base no sinal. Projete pensando no uptime. Reavalie conforme a demanda muda.

Saiba antes de provisionar: sinais de disponibilidade de Spot VMs no GCP