Photo de Karen Roach sur Shutterstock
Dans un univers cloud en perpétuelle évolution, anticiper les interruptions de service est essentiel pour préserver la continuité de l'activité et garantir des performances optimales.
Personalized Service Health (PSH) de Google Cloud est un service précieux qui vous aide à identifier les interruptions de service Google Cloud pertinentes pour vos projets, afin de les gérer et d'y répondre efficacement. Avec PSH, vous détectez et traitez de manière proactive les problèmes potentiels avant qu'ils n'aient un impact significatif sur vos opérations.
Personalized Service Health
Personalized Service Health est une fonctionnalité Google Cloud qui filtre les incidents pertinents selon les dépendances et les usages de votre projet. Cette approche sur mesure vous garantit de ne recevoir que les informations vraiment utiles à votre environnement, pour vous concentrer sur les événements qui comptent.
Principaux atouts de Personalized Service Health
- Visibilité proactive : obtenez rapidement des informations sur les incidents avant qu'ils n'affectent vos opérations.
- Impact réduit : limitez les temps d'arrêt et les perturbations potentielles de l'activité grâce à des mesures proactives.
- Communication renforcée : tenez vos équipes informées des interruptions de service et de leurs répercussions.
- Résilience accrue : consolidez la résilience de votre organisation face aux interruptions de service.
Le schéma ci-dessous illustre la manière dont Personalized Service Health donne accès aux événements de santé des services. Les données proviennent de Google Cloud Service Health (CSH), et Personalized Service Health évalue l'impact de chaque incident sur votre projet. Si l'impact d'un incident est possible ou confirmé, celui-ci apparaît dans Personalized Service Health.

Consulter les événements de santé des services
Pour recevoir les événements, activez l'API Service Health. Pour les consulter, attribuez le rôle roles/servicehealth.viewer aux comptes utilisateurs.
Vous pouvez accéder aux événements de santé des services via :
- Le dashboard Service Health : suivez les incidents Google Cloud émergents et actifs liés à vos projets dans la console Google Cloud.
- L'API Service Health : récupérez les informations sur les événements de santé par projet ou par organisation.
- Les alertes : soyez averti des événements concernant vos projets. Les alertes s'appuient sur les logs de Cloud Logging.
- Les logs : exportez les logs liés aux événements Google Cloud.
Pour l'instant, la console ne prend en charge que les événements propres à un projet. Utilisez l'API Service Health pour bénéficier d'une visibilité et d'un contrôle complets sur les événements qui touchent votre organisation.
Les captures ci-dessous présentent des exemples d'événements propres à un projet GCP.

Dashboard Service Health
La pertinence indique l'impact d'un incident sur votre projet. Elle peut évoluer au fil de l'incident et prendre les valeurs suivantes :
- Impacted : l'incident affecte votre projet, c'est confirmé. Disponible pour certains produits Google Cloud uniquement.
- Related : l'incident est directement lié à votre projet et touche un produit Google Cloud dans une localisation que vous utilisez.
- Partially Related : l'incident concerne un produit Google Cloud que votre projet utilise, mais il ne l'affecte pas nécessairement. Par exemple, l'incident peut toucher un produit Google Cloud que vous utilisez, mais dans une localisation où votre projet n'opère pas.
- Not Impacted : l'incident n'a aucun impact sur votre projet.
- Unknown : l'impact sur votre projet n'est pas encore connu.
Cliquez sur le titre pour afficher plus de détails sur l'événement.

Exemple de détails d'un événement Health
Configurer les alertes
Personalized Service Health s'intègre aux alertes basées sur les logs de Cloud Monitoring et vous permet de paramétrer des notifications pour différentes situations critiques, notamment :
- Nouveaux signalements d'incidents.
- Mises à jour d'incidents existants, comme les messages envoyés par le support Google Cloud.
- Création ou mise à jour d'incidents associés à des produits Google Cloud ou à des localisations spécifiques, par exemple des régions.
- Modifications de détails précis au sein d'incidents existants, comme les changements d'état ou de pertinence.
Rendez-vous sur le dashboard Service Health, puis sélectionnez Create Alert Policy.

Sélectionnez le modèle de stratégie et le canal de notification souhaités pour l'alerte.

Tester la configuration de l'alerte
Pour tester l'alerte, envoyez un log de test via Cloud Logging dans la console Google Cloud : il déclenche la logique d'alerte que vous venez de configurer.
- Rendez-vous sur la page de référence de la méthode entries:write, qui permet d'écrire des entrées dans Cloud Logging. Dans le corps de la requête, remplacez
[PROJECT_NUMBER]par votre projet. - Modifiez les champs
jsonPayloaddu corps de la requête selon la condition d'alerte que vous testez, puis cliquez sur Execute.

Exemple de requête d'injection de log
- Patientez quelques minutes, puis vérifiez que l'alerte s'est bien déclenchée.
Dans la console Google Cloud, accédez à Cloud Monitoring > Incidents et vérifiez si une alerte vous a bien été remontée sur le canal de notification associé à la stratégie d'alerte.

Exemple d'incident

Exemple de logs dans Cloud Logging

Exemple de notification par e-mail
En somme, Personalized Service Health de Google Cloud s'impose comme un système d'alerte précoce indispensable face aux incidents : il permet aux entreprises d'anticiper les risques, de maintenir la continuité opérationnelle et de renforcer leur résilience dans un univers cloud en constante évolution.
Si vous êtes client DoiT, vous pouvez utiliser la fonctionnalité prête à l'emploi cloud incidents pour suivre la disponibilité et le temps de fonctionnement de votre infrastructure sur Google Cloud et Amazon Web Services.