Cloud Intelligence™Cloud Intelligence™

Cloud Intelligence™

本番環境のLLM:数秒からサブ秒へ、コストは50分の1に

By Matthias BaetensAug 6, 20255 min read

このページはEnglishDeutschEspañolFrançaisItalianoPortuguêsでもご覧いただけます。

クラウドインフラの重大なトラブル対応では、一秒の差が勝負を分けます。求められるのは、迅速かつ正確なサポートです。とはいえ急ぎでない場面でも、長々としたフォーム入力に貴重な時間を奪われたくはないはず。問題さえ伝えれば、あとはうまく処理してほしい——それが本音ではないでしょうか。

レイテンシもコストも一気に削減?ぜひお願いします!

**課題:AIサポートをもっと軽快に、もっとインタラクティブに**

DoiTでは、FinOpsやクラウドに関するご質問にAvaがお答えします。とはいえ、人間のエキスパートとじっくり話したい場面もあるはずです。そうしたときに活躍するのがCase IQです。お客様がケースを作成する際に必要な技術情報を漏れなく入力できるようサポートし、当社のCustomer Reliability Engineers(CRE)が問題解決に必要な情報をすべて手元に揃えられるようにします。

このアイデアは2024年夏のハッカソンから生まれ、OpenAIのAPIをベースに構築されました。しかし私たちは現状に甘んじず、お客様への提案レイテンシをさらに短縮し、より軽快でインタラクティブな体験を目指すことにしました。

**実験:5つのモデルをレイテンシ・コスト・性能で比較**

この課題に取り組むため、現行モデル(OpenAIのGPT-4o)と4つの代替モデルを比較する2週間の実証実験を設計しました。

  • GPT-4.1 mini(OpenAIの新しい高速モデル)
  • Llama 3.1 8B(Groqの専用ハードウェア上で動作する小型・超高速モデル)
  • Llama 3.3 70B(Groq上で動作する大型・高性能モデル)
  • Llama 4 Scout 17B(Metaの最新モデルファミリーから登場した有望なプレビュー版)

主な狙いは、GPT-4oベースラインを下回るレイテンシのモデルを見つけることです。応答品質が(わずかに)落ちることは織り込み済みで、コスト削減はうれしいおまけ程度に考えていました。

各モデルを、Case IQがエンゲージメント作成時に実行する次の5つのタスクで検証しました。

  • プラットフォーム検出:リクエストはどのプラットフォームに関するものか
  • プロダクト識別:どのクラウドサービスについてのサポートが必要か
  • 重大度の判定:問題の緊急度はどの程度か
  • アセットの特定:影響を受けているプロジェクトやアカウントはどれか
  • 技術詳細の抽出:エンジニアにはどんな具体情報が必要か

2週間で755件の実お客様エンゲージメントから21,517件のトレースを処理し、レイテンシ・コスト・精度を測定しました。

この比較をスムーズに進められた技術的な土台は、既存のLangChain連携でした。GPT-4oの実装ですでにLangChainを採用していたため、比較対象モデルの追加もシンプルでした。既存のChatOpenAI連携と並行してChatGroqの呼び出しを追加し、本番システムに影響を与えないよう非同期で実行しました。

計測にはLangSmithを活用し、全トレースのレイテンシ、トークン使用量、エラー率、入出力ログを自動的に取得しました。

**結果:わずかな品質の代償で、大幅なスピードアップ**

結果は期待を上回るものでした。

⚡ 4〜5倍のスピード向上

  • プラットフォーム検出:571ms → 249ms(2.3倍高速、Llama 3.3 70B使用)
  • プロダクト検出:851ms → 406ms(2.1倍高速、Llama 3.1 8B使用)
  • 重大度判定:605ms → 234ms(2.6倍高速、Llama 3.3 70B使用)
  • アセット検出:593ms → 220ms(2.7倍高速、Llama 3.3 70B使用)
  • 技術詳細抽出:1,914ms → 334ms(5.7倍高速、Llama 3.1 8B使用)

💰 最大50分の1のコスト削減

主目的はスピードでしたが、コスト面の効果も目を見張るものでした。一部のタスクでは、品質を維持したまま実行コストが50分の1まで下がりました。

🎯 性能もしっかりキープ

実際のお客様エンゲージメントを人手でレビューしたところ、GPT-4oが92〜96%の精度を示したのに対し、高速な代替モデルも十分な性能を維持していました。

  • Llama 3.3 70B:精度88〜96%、2〜3倍のスピード向上
  • Llama 3.1 8B:精度55〜88%、4〜5倍のスピード向上

**勝ち筋:ハイブリッドアプローチ**

単一の「ベスト」モデルを選ぶのではなく、全体最適には複数モデルの使い分けが必要だという結論に至りました。

  • Llama 3.1 8B:プロダクト検出と技術詳細抽出に使用(これらは互いに依存関係があり、スピードが最も効くポイント)
  • Llama 3.3 70B:プラットフォーム検出、重大度判定、アセット識別に使用(Llama 3.1 8Bは苦戦気味でしたが、プロンプト改善の余地は十分あると考えています)

その成果は? 合計応答時間は3秒超から1秒未満へ短縮、全体で3〜4倍の高速化を実現。さらにこのハイブリッド構成により、総コストで約93%の削減を見込んでいます。

**お客様にとってのメリット**

ほぼ瞬時のレスポンス:クラウドインフラの問題を伝えると、CaseIQがほぼ即座に内容を分析し、必要な技術情報を案内します。

🔄 リアルタイムなサポートチャネル:このスピード向上で、新たな選択肢が広がります。お客様がすでに使っているSlackなどのメッセージングプラットフォーム上で、直接サポートを提供することも検討中です。

🚀 初回解決率の向上:正確で漏れのない問題記述がスペシャリストに届くことで、応答時間が短くなり、やり取りの往復も減ります。

**まとめと次のステップ**

技術的な詳細は読みごたえたっぷりで(こちらからご覧いただけます)、得られた重要な学びは2つです。

  • 戦略的なモデル選定は効く:プロバイダーとモデルを慎重に選び、賢いアーキテクチャ判断と組み合わせれば、劇的なレイテンシ改善(3秒超からサブ秒へ)が実現でき、ボーナスとして大幅なコスト削減もついてきます。
  • 人による評価は代替できない:自動指標は有用なベースラインになりますが、テキストや人を相手にした実性能を見極めるには、人手によるレビューが欠かせません。人間にしか正しく評価できないニュアンスが必ず存在します。

DoiTは「powered by technology, perfected by people(テクノロジーで動かし、人で仕上げる)」を信条としています。今回の改善により、CREの人的エキスパートの力が必要になる場面でも、AIがすでに下準備を済ませ、できる限り早く答えにたどり着けるようになりました。

進化したCase IQをご自身で体験してみませんか? 今すぐお問い合わせください。私たちがどのようにお役に立てるかご紹介します。