機械学習で実用的なデータインサイトを引き出す

データからより多くの価値を引き出したい企業こそ、機械学習の活用を検討すべきです。その理由と、MLを巧みに活用するデータドリブン企業の事例をご紹介します。

DoiT-Machine-Learning-Data-DoiT

MLでデータから真のビジネス価値を引き出すには

データドリブンな企業を目指す動きは、もう何年も前から続いています。競合を圧倒する意思決定に役立つ膨大なデータを抱えていると認識した企業は、蓄積したデータからより多くの価値を引き出す戦略を貪欲に追求してきました。しかし、その成果はまちまちです。

この領域で大きな可能性を秘めているのが機械学習(ML)です。実際、Google Next 2022に登壇したGoogle CloudのSmart Analytics担当シニアディレクター(プロダクトマネジメント)Irina Farooq氏は、2025年までにデータの90%がMLによって活用可能になると予測しています。

本稿では、データドリブンな成功がなぜ難しいのか、データから価値を引き出すうえでMLが果たす役割、そしてMLが実際に生み出している成果について見ていきます。

なぜデータが価値を生まないのか

各種の調査からは、自社データからビジネス価値を引き出そうと苦戦する企業の姿が浮き彫りになっています。Accentureが2019年に行った調査では、データから具体的な価値を実現できている企業はわずか32%にとどまりました。続くNewVantageの2021年調査でも、自社をデータドリブンだと考える経営層はわずか24%にとどまっています。多くの企業はデータインフラを整備し、データを移動・配信してはいるものの、その膨大な情報の潜在力をどう活かすかという明確なロードマップを持たないまま運用しているのが実情です。

データのビジネス価値を引き出すうえでの障壁には、企業文化、組織に押し寄せるデータ量の膨大さ、そしてデータの所有権やプライバシーへの懸念があります。こうした壁に直面し、現実的なデータ戦略を描けずにいる経営者は少なくありません。1つのチームがデータの抽出・クレンジング・集約をすべて担う集中型プログラムを採用するケースもありますが、結果としてエンドユーザー個別のニーズと噛み合わない画一的なアプローチに陥りがちです。逆に、チームごとに個別のデータパイプラインを構築する方法もありますが、これは再利用性に乏しいという課題があります。

本来必要なのは、迅速に価値を生み出しつつ、将来的なスケーラビリティも織り込んだ、段階的に進化させられるデータ戦略を設計することです。

機械学習が果たせる役割

機械学習は人工知能(AI)の一分野で、過去のデータをアルゴリズムに与えてパターンを抽出し、将来の結果を予測する技術です。データを使って予測・意思決定・レコメンドを行うこの特性こそ、データドリブンな組織にとって魅力的なポイントです。

MLアルゴリズムは過去のデータ(一般に「訓練データ」と呼ばれます)を処理して予測モデルを構築します。MLのデータセットは変数(特徴量)と観測値(レコード)から構成されます。予測型MLソリューションでは、予測したい結果である従属変数に最も影響を与える独立変数(入力)を特定する必要があります。

一方、教師なしMLモデルは、結果の予測ではなく、データをグループ化・分類することでパターンを浮かび上がらせます。たとえば動画配信サービスが、レコメンドや検索を通じてユーザーの好みに合いそうなコンテンツとの出会いを支援するといった用途に活用されています。

MLを効果的に活用するには

MLはデータ管理の魔法の杖ではありません。レガシーシステムを抱える企業は、MLソリューションと効果的に連携できるよう、まずシステムを刷新する必要があります。関係者は、データ取得からデータ準備、結果の評価まで、すべての工程において訓練データセットの元となる生データの品質を最優先に考えなければなりません。そのためには、経営層が機械学習ソリューションを「明確に定義されたビジネス目標を達成する手段」として旗振り役を担うことが不可欠です。

データ品質の重要性

品質の低いデータセットで訓練された機械学習アルゴリズムは、不正確な結果しか生み出しません。実世界から収集された生データには、人為的ミスや技術的トラブル、想定外の事象などに起因するノイズや欠損値が必ず含まれます。しかし、アルゴリズムは一般に欠損値をそのまま扱えるようには設計されておらず、ノイズによってサンプル本来のパターンが歪められてしまうこともあります。そのため、アルゴリズムにデータを投入する前に前処理を行うことが欠かせません。この工程で欠損値を補完し、ノイズを除去し、不整合を解消し、外れ値を取り除いていきます。

MLモデルの検証

MLモデルを構築したら、その実用性を評価する必要があります。とりわけ重要なのが、適切な検証指標を選ぶことです。クラス分布が大きく偏った不均衡データセットでは、陽性クラスのサンプルが少なすぎてモデルが学習できないという問題が生じやすくなります。

これは医療やゲノミクスのML領域でよくある課題です。たとえば、ある遺伝性疾患の有無を予測する分類アルゴリズムを開発しているとします。仮にその疾患を持つ人が人口の1%しかいなければ、「全員が疾患を持たない」と常に予測する分類器を作るだけで99%の精度を達成できてしまいますが、これは実用上まったく無意味です。こうした不均衡には、多数派クラスをランダムにアンダーサンプリングし、少数派クラスをオーバーサンプリングする手法で対処できます。また、accuracyの代わりにF1スコアといった、より適切な評価指標を用いることで検出することも可能です。

データを信頼する

Google Next 22に登壇したIrina Farooq氏は、MLを効果的に機能させるには、データが「見える」かつ「信頼できる」状態であることが不可欠だと語りました。そのためには、自動カタログ化ツールを活用し、データを一元的に発見・管理することが欠かせません。さらに、リアルタイムでデータを扱える状態であることも重要です。社内のあらゆるデータをチーム横断で扱えるよう、商用ツールとオープンソースツールを最適に組み合わせ、収集と並行して分析できるストリーミング解析を取り入れる必要があります。

信頼性という観点では、説明可能性がMLの重要な要素となりつつあります。これは、入力と出力の間でMLモデル内部に何が起きているかに焦点を当て、透明性を改めて重視する考え方です。説明可能AI(XAI)は、機械学習アルゴリズムが生み出す結果や出力を理解可能で信頼できるものにするための一連のプロセスや手法として発展してきました。責任あるMLに取り組む企業にとっては、必ず押さえておくべき観点です。

モデルの最適化

MLの取り組みから意味のある価値を引き出すには、短いフィードバックループも欠かせません。MLモデルを反復的に最適化することで、予測出力と真の出力との誤差を縮小でき、その度合いはコスト関数によって測定されます。MLのPoCで「使われないモデル」を量産しないためには、MLアルゴリズムで最適化対象とするコスト関数と、ROIなどのビジネス指標とのあいだに強い相関があることが重要です。

本格的なML施策に着手する前に、自動テストの記述、継続的インテグレーション/継続的デリバリー(CI/CD)の導入、効果的なユーザーテストの実施といった実践を取り入れておくことで、MLモデルの最適化プロセスは大きく加速します。MLシステム構築のあらゆる段階にDevOpsの原則を適用することで、MLパイプラインとCI/CDパイプラインの両方が自動化された成熟したMLOps文化の確立を目指せます。

MLが価値あるデータインサイトを生み出している現場

DoiTは、機械学習を独創的な形で自社データに適用し、目覚ましい成果を上げているさまざまな顧客と協業しています。その中からいくつかの事例をご紹介します。

スムーズな小売体験

CB4はMLを活用し、店舗スタッフと顧客双方にとって店内体験をよりスムーズなものにしています。MLベースのソリューションにより、店舗スタッフは商品を追加発注したり、バックヤードから別の商品を出してきたりといった簡単な調整を通じて、顧客対応や新たな売上創出につなげられます。各店舗には、独自の販売パターンや営業状況に基づき、より売上を伸ばせる可能性のあるSKU(在庫管理単位)のおすすめリストが個別に届けられます。

CB4はGoogle Cloudのツールを活用し、DoiTと協業して効率的なデータパイプラインを構築。ML処理性能を30%向上させ、コストの可視性も強化しました。新システムにより、GDPRをはじめとする各国のデータ保護規制に準拠した安全なデータ保管も実現しています。パフォーマンス面でも、新しい小売事業者を容易にデータソリューションへ統合でき、需要のピーク時やスケール時にも高い可用性を維持できます。

スケーラブルなオンラインストーリーテリング

Apesterは、企業がメッセージを伝えるためのインタラクティブなソーシャル体験(クイズや投票など)を提供する企業です。これらのコンテンツはWebサイトとシームレスに統合でき、大規模に配信できます。ユーザー数の拡大に伴い扱うデータ量も急増したため、容易にスケール可能なBI(ビジネスインテリジェンス)とデータウェアハウスのソリューションが必要となりました。

同社はGoogle Cloudを中心にCloud Dataflow、Cloud Dataproc、Cloud Bigtableを組み合わせ、データ処理と分析の基盤を構築しました。MLとBIの機能を備えるデータウェアハウスBigQueryは、Apesterの中核分析ソリューションとなりました。BigQueryに蓄積されたデータと、Cloud Natural Languageモジュールを用いた取り組みがML施策の土台となり、現在では同社はML領域に大きく投資しています。パイプラインにはMLプラットフォームのTensorflowを採用し、規模を拡大しながらも顧客ニーズへの対応スピードをさらに高めています。

リアルタイムの不正検知

不正検知企業の24metricsは、ClickShieldというソリューションを提供しており、企業がリアルタイムで不正ユーザーを特定するのを支援しています。アプリのユーザーが実在の人物かボットかを見極めるのには通常数週間を要しますが、24metricsはソリューションにMLを組み込んでユーザーの質を予測しています。DoiTは適切なMLツールの選定を支援し、初回セッションを経たのち、24metrics自身で最初のモデルを訓練できるようになりました。

作成したモデルの結果に満足できなかった同社はDoiTに相談し、結果の分析、ML訓練アプローチに潜む問題点の洗い出し、代替案の提示を受けました。DoiTの提言を実行に移すと、まもなく十分に訓練されたモデルが完成し、コスト効率の良いデプロイもDoiTがサポートしました。当初24metricsはMLアルゴリズムの構築と新機能のデプロイに5か月以上かかると見積もっていましたが、DoiTの支援によりわずか2か月で完了し、想定よりもはるかにスムーズに進められました。

大規模かつ直感的なコンテンツ編集

LightricksのFacetune、Videoleap、Photoleapといったアプリは、プロの動画クリエイター、グラフィックデザイナー、Web制作者のコンテンツ編集を効率化します。オンライン広告キャンペーンの中には、数テラバイトのデータに対してほぼ即時にレポートを作成する必要があるものもあり、これらのアプリは主にモバイル由来の膨大なデータを、多くの場合ほぼリアルタイムで取り込み・分析しています。同社はGoogle Cloud Dataflowを用いてユーザー行動データを処理し、それをBigQueryに取り込んで大規模な分析を行っています。

DoiTはこの高度な機械学習プログラムに継続的なサポートを提供し、アーキテクチャから問題解決まで幅広い領域で助言を行っています。Lightricksは現在ML施策を拡大しており、マーケティング、プロダクト最適化、レコメンドエンジンの各チームがそれぞれ機械学習モデルを構築しています。当初は自己管理型のML環境としてGoogle Cloud Compute Engineで開始しましたが、より高速なスケーリングを目指してGoogle CloudのVertex AIのマネージドサービスへ段階的に移行しています。

次に取るべきアクション

機械学習はデータ活用に悩む企業にとって万能の解決策ではありませんが、その重要な一部となり得ます。適切なリーダーシップ、文化、体制を整えることで、企業はMLを活用してデータを迅速かつ効果的に扱い、最大のビジネス価値を引き出せます。データソリューションの一環としてMLを検討している企業にも、すでにMLの取り組みが進んでいる企業にも、DoiTはその取り組みを加速・最適化するためのサポートと指針を提供します。