Foto de Karen Roach via Shutterstock
No mundo em constante evolução da computação em nuvem, sair na frente das interrupções de serviço é essencial para manter a continuidade do negócio e garantir o melhor desempenho.
O Personalized Service Health (PSH) do Google Cloud é um serviço valioso que ajuda você a identificar interrupções nos serviços do Google Cloud relevantes para os seus projetos, para gerenciá-las e respondê-las com eficiência. Com o PSH, dá para identificar e tratar problemas de forma proativa, antes que eles causem impacto significativo nas suas operações.
Personalized Service Health
O Personalized Service Health é um recurso do Google Cloud que filtra eventos disruptivos relevantes com base nas dependências e nos padrões de uso do seu projeto. Essa abordagem sob medida garante que você receba apenas as informações mais pertinentes para o seu ambiente, permitindo focar nos eventos que realmente importam.
Principais benefícios do Personalized Service Health
- Visão proativa: tenha insights no momento certo sobre eventos disruptivos antes que eles afetem suas operações.
- Menos impacto: reduza o tempo de inatividade e possíveis interrupções no negócio com medidas proativas.
- Comunicação mais clara: mantenha seu time informado sobre interrupções de serviço e seus possíveis impactos.
- Mais resiliência: fortaleça a capacidade da sua organização de lidar com interrupções de serviço.
O diagrama a seguir mostra como o Personalized Service Health dá acesso aos eventos de saúde do serviço. Os dados vêm do Google Cloud Service Health (CSH), e o Personalized Service Health avalia o impacto de cada incidente no seu projeto. Quando o impacto de um incidente no seu projeto é possível ou confirmado, ele aparece no Personalized Service Health.

Visualizar eventos de saúde do serviço
Para receber eventos, ative a Service Health API. Para visualizá-los, atribua a função roles/servicehealth.viewer às contas de usuário.
Você pode acessar os eventos de saúde do serviço pelas seguintes formas:
- Service Health dashboard: acompanhe incidentes ativos e emergentes do Google Cloud relevantes para os seus projetos no Google Cloud Console.
- Service Health API: obtenha informações de eventos de saúde do serviço por projeto ou organização.
- Alertas: receba notificações sobre eventos relevantes para os seus projetos. Os alertas se baseiam em logs no Cloud Logging.
- Logs: exporte logs relacionados a eventos do Google Cloud
No momento, o console suporta apenas eventos específicos de um projeto. Use a Service Health API para ter visibilidade e controle completos sobre os eventos que afetam sua organização.
As capturas de tela abaixo mostram exemplos de eventos específicos de um projeto GCP.

Service Health Dashboard
A Relevância do evento descreve como um incidente afeta o seu projeto. Ela pode mudar conforme o incidente evolui. Os valores possíveis são:
- Impacted: confirmou-se que o incidente está impactando o seu projeto. Disponível apenas para alguns produtos do Google Cloud.
- Related: o incidente tem conexão direta com o seu projeto e afeta um produto do Google Cloud em uma localização que o seu projeto utiliza.
- Partially Related: o incidente está associado a um produto do Google Cloud que o seu projeto usa, mas pode não estar afetando o seu projeto. Por exemplo, o incidente pode estar afetando um produto do Google Cloud que o seu projeto usa, mas em uma localização onde o seu projeto não opera.
- Not Impacted: o incidente não está afetando o seu projeto.
- Unknown: o impacto no seu projeto ainda não é conhecido.
Clique no título para ver mais detalhes sobre o evento.

Exemplo de detalhes de um evento de saúde
Configurar alertas
O Personalized Service Health se integra aos alertas baseados em logs do Cloud Monitoring, permitindo configurar notificações para diversas condições críticas, como:
- Novos relatórios de incidentes.
- Atualizações em incidentes existentes, como mensagens enviadas pelo Google Cloud Support.
- Criação ou atualização de incidentes associados a produtos ou localizações específicas do Google Cloud, como regiões.
- Alterações em detalhes específicos de incidentes existentes, como mudanças de estado e relevância.
Acesse o Service Health dashboard e selecione Create Alert Policy.

Selecione o template de política e o canal de notificação desejados para o alerta.

Testar a configuração do alerta
Para testar o alerta, você pode enviar um log de teste pelo Cloud Logging no console do Google Cloud, que aciona a lógica de alerta configurada antes.
- Acesse a página de referência do método entries:write, que permite gravar entradas de log no Cloud Logging. No corpo da requisição, troque
[PROJECT_NUMBER]pelo seu projeto. - Ajuste os campos
jsonPayloadno corpo da requisição conforme a condição de alerta que você está testando e clique em Execute.

Exemplo de requisição de injeção de log
- Aguarde alguns minutos e confira se o alerta foi disparado.
No console do Google Cloud, vá em Cloud Monitoring > Incidents e veja se você recebeu um alerta no canal de notificação usado pela política.

Exemplo de incidente

Exemplo de logs no Cloud Logging

Exemplo de notificação por e-mail
Em resumo, o Personalized Service Health do Google Cloud se mostra um sistema essencial de alerta antecipado diante de eventos disruptivos, ajudando empresas a mitigar riscos de forma proativa, manter a continuidade operacional e fortalecer sua resiliência contra interrupções de serviço no cenário em constante evolução da computação em nuvem.
Se você é cliente da DoiT, pode usar o recurso pronto para uso de cloud incidents para monitorar a disponibilidade e o uptime da sua infraestrutura no Google Cloud e na Amazon Web Services.