Photo by Karen Roach from Shutterstock
進化し続けるクラウドコンピューティングの世界では、サービス障害を先回りして把握することが、事業継続と最適なパフォーマンスを維持するうえで欠かせません。
Google CloudのPersonalized Service Health(PSH)は、自社プロジェクトに関係するGoogle Cloudのサービス障害を特定し、効率的に管理・対応するための便利なサービスです。PSHを使えば、潜在的な問題が業務に大きな影響を及ぼす前に、能動的に検知して対処できます。
Personalized Service Healthとは
Personalized Service Healthは、プロジェクトの依存関係や利用パターンに基づき、関連する障害イベントだけを抽出してくれるGoogle Cloudの機能です。自社の環境に関係する情報のみが届くため、本当に重要なイベントに集中できます。
Personalized Service Healthの主なメリット
- 先回りの把握:業務に影響が及ぶ前に、障害イベントをタイムリーにキャッチできます。
- 影響の最小化:事前の対策により、ダウンタイムや業務への影響を最小限に抑えます。
- 連携の強化:サービス障害や想定される影響をチーム全体で共有しやすくなります。
- レジリエンス向上:サービス障害に対する組織の対応力を高めます。
次の図は、Personalized Service Healthがサービスヘルスイベントへのアクセスを提供する仕組みを表しています。データはGoogle Cloud Service Health(CSH)から収集され、Personalized Service Healthがすべてのインシデントについてプロジェクトへの影響を評価します。プロジェクトに影響する可能性がある、または影響が確認されたインシデントは、Personalized Service Healthで参照できます。

サービスヘルスイベントの確認
イベントを受信するには、Service Health APIを有効にします。イベントを閲覧するには、ユーザーアカウントにroles/servicehealth.viewerロールを付与してください。
サービスヘルスイベントは、次の方法で確認できます。
- Service Healthダッシュボード:Google Cloud Consoleから、自社プロジェクトに関連する発生中・進行中のGoogle Cloudインシデントを追跡できます。
- Service Health API:プロジェクト単位または組織単位でサービスヘルスイベント情報を取得できます。
- アラート:プロジェクトに関連するイベントの通知を受け取れます。アラートはCloud Loggingのログをもとに発行されます。
- ログ:Google Cloudイベントに関するログをエクスポートできます。
現時点でコンソールが対応しているのはプロジェクト単位のイベントのみです。組織全体に影響するイベントを包括的に可視化・管理するには、Service Health APIをご活用ください。
下のスクリーンショットは、GCPプロジェクト固有のサンプルイベントです。

Service Healthダッシュボード
イベントのRelevance(関連性)は、インシデントがプロジェクトに与える影響度合いを表します。インシデントの進行に応じて関連性は変わることがあります。Relevanceには次の値があります。
- Impacted:インシデントがプロジェクトに影響していることが確認されている状態です。一部のGoogle Cloudプロダクトのみで利用できます。
- Related:インシデントがプロジェクトと直接関係しており、プロジェクトが利用しているロケーションのGoogle Cloudプロダクトに影響しています。
- Partially Related:インシデントはプロジェクトが利用しているGoogle Cloudプロダクトに関係していますが、プロジェクトに影響していない可能性があります。たとえば、利用中のプロダクトが影響を受けていても、プロジェクトが稼働していないロケーションで発生しているケースなどです。
- Not Impacted:インシデントはプロジェクトに影響していません。
- Unknown:現時点ではプロジェクトへの影響は不明です。
タイトルをクリックすると、イベントの詳細を確認できます。

サービスヘルスイベント詳細のサンプル
アラートの設定
Personalized Service HealthはCloud Monitoringのログアラートと連携しており、次のような重要な条件に応じた通知を設定できます。
- 新規インシデントレポート
- Google Cloud Supportからのメッセージなど、既存インシデントの更新
- 特定のGoogle Cloudプロダクトやロケーション(リージョンなど)に関連するインシデントの作成・更新
- 既存インシデント内の特定項目(state、relevanceなど)の変更
Service Healthダッシュボードに移動し、Create Alert Policyを選択します。

必要なポリシーテンプレートとアラートの通知チャネルを選択します。

アラート設定のテスト
アラートをテストするには、Google CloudコンソールのCloud Logging経由でサンプルテストログを送信します。これにより、設定済みのアラートロジックが意図どおり動作するかを確認できます。
- entries:writeメソッドのリファレンスページを開きます。ここからCloud Loggingにログエントリを書き込めます。リクエストボディの
[PROJECT_NUMBER]をご自身のプロジェクト番号に書き換えてください。 - テストしたいアラート条件に合わせてリクエストボディの
jsonPayloadフィールドを編集し、Executeをクリックします。

サンプルのログ送信リクエスト
- 数分待ってから、アラートが発行されたか確認します。
Google CloudコンソールでCloud Monitoring > Incidentsを開き、アラートポリシーで指定した通知チャネルにアラートが届いているか確認してください。

サンプルインシデント

Cloud Loggingのサンプルログ

サンプルのメール通知
Google CloudのPersonalized Service Healthは、障害イベントに備えるための心強い早期警告システムです。変化し続けるクラウドコンピューティングの環境のなかで、リスクを先回りして抑え、業務を止めず、サービス中断への耐性を高めるうえで大きな力を発揮します。
DoiTをご利用のお客様は、標準搭載のcloud incidents機能を使って、Google CloudおよびAmazon Web Services上のインフラの可用性と稼働状況をそのまま監視できます。