Solidus Labs、Kubernetesの回復力問題を90%削減

ソリダス・ラボの紹介
Solidus Labsは、すべての中央集権市場とDeFi市場において、投資の旅を通してより安全な暗号取引を可能にすることを目指しています。業界をリードするイニシアチブの創始者として、ソリダスは明日の金融市場を先導することに深くコミットしています。
暗号市場の急成長をサポートし、顧客からの増え続ける需要に応えるため、ソリダスはアプリケーション・インフラの基盤としてAmazon Elastic Kubernetes Serviceを活用しています。会社の成長に合わせて環境を確実に拡張するために、SolidusはDeveleapの専門知識とサービスを利用しています。
イスラエル最大のDevOpsコンサルタント会社の1つであるDeveleapは、初期アーキテクチャの構築とSolidus環境の継続的なサポートとメンテナンスを担当しました。これには、監視、可観測性、アラートの設定や、環境のコストの最適化も含まれました。
Develeapとの提携により、ソリダスはその環境を12もの複数地域のクラスターに拡大し、世界中の顧客にサービスを提供できるようになった。
挑戦
堅牢なDevOps基盤にもかかわらず、Solidus Labsはポッドリソースの適切なサイズ設定ができないという繰り返し発生する課題に直面していました。KEDAのようなツールは水平方向のポッドオートスケーリングを管理していましたが、それでもSolidusは頻繁にCPUスロットリングやOOM(out-of-memory)の問題に遭遇し、パフォーマンスが低下していました。
同社のインフラは、毎時リリースされる絶え間ない変化に対応しなければならなかった。膨大なデータ・バッチを送信するクライアントもあれば、リアルタイムの処理を必要とするクライアントもあり、パフォーマンス要求を予測し、満たすことは困難だった。
Solidus LabsはDeveleapと協力し、リソースの微調整に手作業で数え切れないほどの時間を費やしました。これによって一時的に環境は安定しましたが、変更は短期間で終わり、小規模なクラスタでは不必要なリソースの浪費が増えました。
ソリューション
急成長時の回復力の維持
Solidus Labsは、Kubernetes環境をスムーズかつ効率的に稼働させるために、すでにいくつかの機能を実装していた。しかし、PerfectScale by DoiTを導入するまでは、ポッドリソースを包括的に適正化し、CPUスロットリングやメモリ不足(OOM)が繰り返し発生する問題の根本原因に対処することはできませんでした。
DoiTのPerfectScaleは、Solidusが絶え間なく変化するインフラをナビゲートするのに役立ちました。「Solidus LabsのR&DディレクターであるBen Hoffman氏は次のように語っています。「当社のクライアントの中には、大量のバッチでデータを送信するものもあれば、リアルタイムサービスとして当社を利用するものもあり、当社のサービスの負荷変動を予測するのは困難です。
PerfectScaleは、リソースの推奨とスケーリングの決定を自動化することで、チームはリアクティブでマニュアル的な介入から脱却することができました。以前は、最大のクラスターを安定化させ、他のクラスターにコンフィギュレーションをレプリケートするのに何時間も費やしていた。PerfectScaleの導入により、そのような労力は不要となり、小規模クラスタ間でのリソースの無駄がなくなった。
「私はGrafanaに飛び込んで、Prometheusからメトリクスを、Logz.ioからログを取り込み、環境のさまざまなピークに基づいてリクエストの調整を行いました」Solidus Labs/DeveleapのDevOpsエンジニア、Shemtov Fisher氏は言う。「それから数週間が過ぎると、スロットリングやメモリの問題が再燃し、2回目の調整が必要になりました。三度目の正直で、このプロセスを自動化するソリューションが必要だと思いました。DoiTのPerfectScaleは、このギャップを埋めるのにまさに必要なソリューションでした。”
CPUスロットリングとOOMの問題を90%削減し、Kubernetesの安定性を向上
DoiTのPerfectScaleを導入して間もなく、Solidusはポッドリソースをプロアクティブに「適正規模」にすることができ、CPUのスロットリングやOOMの問題を大幅に減らすことができました。
「1日に複数の問題が発生していたのが、ここ1ヶ月で1、2件になりました 。「PerfectScaleの導入により、90%以上の削減を達成し、アプリケーションのキャパシティを確保することができました。
さらに、PerfectScaleは、容量関連の問題の平均解決時間(MTTR)を大幅に短縮しました。
「PerfectScale以前は、問題が発生するとDevOpsチームがアラートを受け取り、適切なサービスオーナーに問題をトリアージして解決していました。「クリティカリティによっては、サービスオーナーが問題を評価し、適切なリソース要件を提供してくれるまでに数時間、あるいはそれ以上かかることもあります。PerfectScaleを使えば、なぜ問題が発生しているのか、その証拠と解決方法に関する的確な提案をサービスプロバイダーに即座に提供することができます。これは、日々の業務に大いに役立っています。”
システムの健全性とコスト効率のために手作業を続ける必要はもうない。
システムの回復力と安定性を向上させるために容量を追加するには、コストがかかります。余分なコストを軽減するため、チームはPerfectScaleのコスト最適化機能を活用し、未使用のリソースを追加容量が必要なエリアに移動させた。
「いくつかのクラスターで、大幅なコスト削減の機会が見つかりました 。「この節約分を、リソースが不足していたクラスタに再投資することができました。その結果、予算に影響を与えることなく、完全に安定した、弾力性のある、費用対効果の高い環境を実現することができました。
「当社には多数の顧客がおり、それぞれが当社のアプリケーションを微妙に使い分けています。Kubernetes 環境の最適化を維持することは、Solidus Labs にとって不可欠であり、アプリケーションに必要なリソースを確保することで、現在だけでなく、将来的に当社が成長し続ける際にも、お客様をサポートすることが できます。「PerfectScaleは、私たちがこれまで直面してきた時間のかかる手作業を取り除き、システムの健全性と費用対効果を継続的に維持することを容易にしてくれます。
結果
PerfectScaleによって、Solidus LabsはKubernetes環境をリアクティブなトラブルシューティングからプロアクティブな最適化へと変えました。リソースをインテリジェントにライトサイジングすることで、Solidusはパフォーマンスのボトルネックの大部分を解消し、貴重なエンジニアリング時間を取り戻しました。
- SLAに影響を与える問題を90%削減し、CPUスロットリングやOOMエラーを実質的に排除
- キャパシティ関連のインシデントのMTTRが大幅に短縮され、エンジニアは実用的な洞察によって問題を迅速に解決できるようになりました。
- リソースの効率的な再配分により 、過剰にプロビジョニングされたクラスタのコスト削減を、リソースに制約のあるクラスタに再投資。
- ソリダスはリアルタイムクライアントとバッチクライアントをサポートできるようになったため、需要が増大しても拡張性を確保できます。
DoiTのPerfectScaleは、Solidus Labsがコスト効率や開発スピードを犠牲にすることなく、自信を持ってスケーリングするために必要な安定性と柔軟性を提供しました。