
O BigQuery executa consultas grandes e caras em segundos. Quando algo sai errado, os custos sobem na mesma velocidade — muitas vezes antes que alguém perceba.
A detecção de anomalias de custo em tempo real para o Google BigQuery foi criada para fechar essa lacuna. Ela oferece visibilidade quase em tempo real sobre comportamentos inesperados de custo no BigQuery, tanto em workloads on-demand quanto em reservas, e permite que as equipes identifiquem e contenham problemas antes que eles saiam do controle.
Por que anomalias de custo no BigQuery são tão difíceis de detectar
A maioria das ferramentas de FinOps depende da ingestão do arquivo de billing no dia seguinte. Ou seja, se uma consulta problemática rodou às 10h de hoje, o alerta só chega amanhã de manhã — depois de quase 24 horas acumulando cobranças. E se esse atraso pega um fim de semana ou horário fora do expediente, o impacto financeiro pode ser ainda maior.
Para resolver esse atraso, a detecção de anomalias em tempo real da DoiT para o BigQuery analisa metadados de uso ao vivo, em vez de esperar pelas exportações de billing.
Depois de ativado, o recurso:
- Analisa continuamente os padrões de uso do BigQuery
- Detecta comportamentos anormais ou inesperados
- Estima o impacto no custo quase em tempo real
- Envia alertas no Slack ou por e-mail em menos de uma hora, e não no dia seguinte
Isso vale tanto para BigQuery on-demand quanto para reservas, dando às equipes visibilidade sobre todos os seus workloads de BQ.
Um caso real: pico de custo identificado antes de escalar
Um cliente recebeu um alerta em tempo real de anomalia no BigQuery e abriu na hora um chamado P1 para investigarmos juntos. Em condições normais, esse problema só seria notado, no mínimo, no dia seguinte — o que, neste caso, teria sido no fim da tarde de uma sexta-feira.
Como era a anomalia

O uso típico on-demand do BigQuery desse cliente fica em torno de US$ 3.000 por dia, como dá para ver claramente na interface de detecção de anomalias.
No dia do alerta, uma breve rajada de atividade fez os custos dispararem para US$ 6.000, quase o dobro do máximo habitual do cliente. O pico foi curto, mas significativo o bastante para que o motor de detecção em tempo real da DoiT o sinalizasse e disparasse um alerta.
Assista ao vídeo abaixo para um passo a passo detalhado desse caso real e veja como a detecção de anomalias em tempo real evitou um incidente caro no BigQuery antes que ele tomasse proporções maiores.
Identificando a causa raiz em minutos
Na investigação, descobrimos que 122 jobs do BigQuery estavam rodando ao mesmo tempo, todos on-demand. Cada job tinha o prefixo airflow, indicando ou um deployment self-hosted do Airflow ou o Google Cloud Composer.
Os jobs estavam:
- Rodando com frequência muito maior do que o esperado
- Processando volumes de dados fora do comum
- Provavelmente disparados várias vezes por causa de um problema de configuração
A causa raiz foi um agendamento cron digitado errado no Airflow.
Esse é um problema enganosamente comum. Um job que deveria rodar uma vez por dia pode acabar rodando a cada hora — ou até a cada minuto. Quando isso acontece, uma consulta de US$ 100 vira, de uma hora para outra, uma despesa diária de US$ 2.400, só porque está sendo executada com mais frequência do que o planejado.
Como esses jobs rodavam repetidamente e sem cache, os custos dispararam quase de imediato — e a detecção de anomalias em tempo real pegou o problema com a mesma rapidez.
Por que a detecção em tempo real muda o jogo
Esse incidente em específico aconteceu numa sexta-feira, às 16h30.
Sem a detecção em tempo real, o cliente provavelmente só perceberia algo na manhã de segunda-feira. Se o job estivesse agendado de forma ainda mais agressiva (por exemplo, a cada minuto em vez de a cada hora), só o fim de semana já poderia gerar dezenas de milhares de dólares em cobranças inesperadas no BigQuery.
Em vez disso, a DoiT sinalizou a anomalia em menos de uma hora. O cliente parou os jobs na hora e evitou um problema grave de billing antes que ele tivesse tempo de crescer.
Mais do que controle de custos: por que isso importa
A detecção de anomalias em tempo real no BigQuery ajuda as equipes a:
- Identificar consultas descontroladas em minutos, para que os times de engenharia consigam interromper consultas ineficientes ou acidentais antes que elas gerem custos sérios.
- Proteger-se contra erros operacionais, recebendo alertas quando configurações incorretas ou comportamentos inesperados começam a impactar os gastos.
- Reforçar a postura de segurança, já que picos repentinos de custo podem indicar acesso não autorizado ou sistemas comprometidos — e não apenas consultas ineficientes (veja este exemplo do ano passado, em que clientes da AWS tiveram um agente malicioso acumulando milhares de dólares em cobranças não autorizadas de EC2).
Em vez de reagir à fatura de ontem, agora as equipes podem agir enquanto o problema ainda está acontecendo.
Assuma o controle dos gastos com BigQuery em tempo real
O BigQuery é incrivelmente poderoso, mas até pequenos erros podem virar custos altos muito rápido. A detecção de anomalias de custo em tempo real dá às equipes de finanças, dados e plataforma a visibilidade necessária para se antecipar ao risco antes que os custos saiam do controle.