TraxがPerfectScaleでKubernetesのコストを75%削減した方法 by DoiT

トラックスとの出会い
トラックスの使命は、ブランドや小売業者がデジタル技術の力を活用し、顧客に最高のショッピング体験を提供できるようにすることです。業界をリードする技術革新と、高度なテクノロジーと自律的なデータ収集手法の開発における卓越性により、あらゆる販売拠点でポジティブな買い物体験を促進し、収益機会を引き出している。
Traxのソリューション・ポートフォリオは、ミッションクリティカルなメトリクス、アナリティクス、サービスを提供し、顧客がショッピング体験を向上させることで時間とコストを節約できるよう支援しています。Kubernetesは同社のインフラストラクチャの重要なコンポーネントであり、Traxが継続的にソリューションを革新することを可能にすると同時に、一貫して需要を満たすスケーラビリティを提供しています。Traxは、世界最大級の企業を含む90カ国以上の顧客をサポートする大規模なマルチクラウド、マルチクラスタ環境に成長しています。
挑戦
年初、最高財務責任者(CFO)は組織全体にわたる強力なコスト削減目標を打ち出した。クラウド・インフラストラクチャ担当ディレクターのマーク・セルゼと彼のチームにとって、これはクラウド・コストを最適化するための迅速な行動を意味した。
Traxは、Kubernetes以外のコスト削減では素早い成果を上げたが、クラスタ内のすべてを最適化するとなると、障害にぶつかるようになった。
「VPA(Vertical Pod Autoscaler)、クラスタ・ログ、モニタリング・ソリューションを使って、利用可能なメトリクスを手動で最適化し始めました」とSerdze氏は説明する。「このアプローチでは、適切な明確性が得られず、大きな開発ニーズなしに効率的に拡張するのは困難でした。そのため、目標への影響を最小限に抑えるために、その場しのぎの対応に終始していました。
トラックスの既存のツールも、最適化プロセスに摩擦をもたらした。チームメンバーがコスト削減の可能性を特定した場合でも、最善の行動を検証するための承認プロセスは、データよりもむしろ直感に基づいていた。見通しが立たないため、いくつかの不手際は作業負荷の増大につながり、社内の緊張を高め、サービスの回復力を損ないかねないリスクをもたらした。
Serdze氏と彼のチームにとって、彼らのツールセットにはKubernetes環境を効果的に最適化するためのインテリジェンスと明快さが欠けていることがすぐに明らかになった。
ソリューション
DoiTのPerfectScaleを導入して間もなく、Serdze氏とチームは、不足していたコストの可視性を獲得した。Traxの広大な200以上のマイクロサービス環境全体で、各サービスがどのようなリソースを必要としているのかが明確に可視化され、無駄を省く最も重要な機会を特定することができた。
このプラットフォームのAIガイド付きインテリジェンスにより、チームは迅速にコスト削減のための行動を開始することができた。コスト削減と全体的な回復力を比較することで、パフォーマンスを損なうことなく、安全かつ効率的にリソースを調整することができた。
「各変更がもたらす影響を明確に理解した上で、どのようなアクションを取るべきかを教えてくれたのです。「私たちのクラスタの1つでは、コストを75%削減することができ、年間経費を10万ドル以上節約することができました。
さらにトラックスは、このソリューションが環境全体にわたって提供する包括的なデータとインテリジェンスに感銘を受けた。この導入により、予算に影響を与えることなく、コストの可視化ツールセットをアップグレードすることができました。
「私たちが使用していたFinOpsツールは、詳細なコスト情報を提供せず、環境を最適化するためのガイダンスも提供していませんでした。「PerfectScaleは、財務のためだけでなく、エンジニアリングチームのために作られたツールです。
ビジネス・メトリクスを改善するKubernetesの最適化
無駄なリソースを排除した後、Traxはコスト最適化のさらなる機会を特定することに集中しました。チームはPerfectScaleのデータを精査し、コスト中心のビジネス指標に有意義な影響を与える方法を模索しました。
私たちにとって重要な指標は “処理あたりのコスト “で、Kubernetesの効率に大きく影響されます。“それが一定額を超えると、原因を突き止め、それを削減するための対策を講じなければならないというプレッシャーにさらされます”
PerfectScaleには、サービスのすべてのレプリカを単一のビューに統合し、すべてのレプリカの利用傾向を明確に把握できるユニークな機能があり、これはSparkやFlinkジョブのようなエフェメラルなワークロードに特に有効です。Trax 社はこの機能を活用して、使用頻度の高い複数のサービスのレプリカ全体の異種混在の利用状況をよりよく把握しました。このレベルの可視性は、これらのサービスの一部を再構築し、弾力性や可用性に影響を与えることなく、さらなるコスト削減を実現するのに役立ちました。
「私たちは、さまざまなレベルのリソースを持つサービスの複数のフレーバーを構築し、受信したリクエストをデータのサイズに基づいて適切なサービスにルーティングすることができました」とSerdze氏は説明する。これは、”処理あたりのコスト “の指標に大きな影響を与えました。PerfectScaleがなければ、同じ結果を得るために何百ものレプリカを評価するのに数え切れないほどの時間を費やしていたでしょう。
結果
DoiTのPerfectScaleを採用することで、Traxは、技術的目標と財務的目標の両方に合致した、迅速で測定可能な結果を達成しました:
- 1クラスタ内のKubernetesコストを75%削減し、年間6桁以上のコスト削減に相当
- 低性能のFinOpsツールを、予算を増やすことなく、エンジニア向けに構築されたソリューションに置き換えた。
- リアルタイムのレプリカレベルの洞察に基づいてサービスを再構築することで、「処理あたりのコスト」を改善 。
- AI主導のレコメンデーションにより意思決定を迅速化し、当て推量を排除してサービス中断のリスクを低減
数字だけでなく、トラックスは戦略的な明確さを手に入れた。かつては何時間もの手動分析とリスクの高い試行錯誤が必要であったものが、今では自動化され、ガイド付きで正確になりました。DoiTのPerfectScaleにより、Traxは大幅なコスト目標を達成しただけでなく、長期的なスケールでのKubernetesの効率化の基盤を確立しました。
「Serdze氏は、「概念実証(POC)期間中のサポートは、迅速な成果達成に大きな効果をもたらしました。「PerfectScaleのチームは、私たちに寄り添い、最適化を支援し、プラットフォームの使用を確実に成功に導いてくれました。他のベンダーでは、このレベルのコミットメントを見たことがありません。”規模を拡大し続ける中で、Kubernetesのコストを抑えるために頼れるパートナーを見つけたことを嬉しく思っています。