(本記事は、中澤公貴氏の著書『データ分析チームの作り方』秀和システム2019年9月18日刊の中から一部を抜粋・編集しています)

データサイエンスの領域

データ
(画像=FaheemAhmed5111/Shutterstock.com)

データサイエンスを構成する要素とは、どのようなものでしょうか。ここでは、AIドリブン企業を作るにあたり、最低限把握しておくべきその各要素を見ていきます。

データサイエンスはチーム・スポーツのようなもの

1人データサイエンティストを採用したからといって、何の準備もない段階からデータ解析を行うことはおそらく不可能でしょう。

例えば、民泊サービスを運営するAirbnbやアパレルEコマースのスティッチ・フィックス(Stitch Fix)では、100名を超えるデータサイエンティストが勤務しています。ほとんどの企業でこのような規模の採用は必要ありませんが、データ解析は野球やサッカーのように特定のポジションを守るプレーヤーが集まって成り立つチーム・スポーツと同じであることを覚えておいてください。そのため、ポジションによって役割が異なってきます。

図表6は、データサイエンスを構成する要素を表しています。ここでは、AIドリブン企業を作るにあたり、最低限把握しておくべき要素のみを描きました。

図表 6 データサイエンスを構成する要素
(画像=データ分析チームの作り方)

まずデータサイエンスを語る上で主に二つの分野に分けることができます。AIとデータエンジニアリングです。

「AI=機械学習」と考える方も多いかも知れませんが、本節ではAIをXからYへのマッピング(関数)と定義します。これは、例えば、画像(X)をAIに見せて、猫か犬か(Y)を識別することを指します。このAIには、ルールベースのアルゴリズム(人間が定義したロジックを忠実に再現する)もあれば、データからパターンを学習する機械学習アルゴリズムも含みます。

機械学習を分解すると、さらに、教師あり・なし学習と強化学習に分けられます。また、その各領域を横断して機械学習モデルの隠れ層を増やしたものを深層学習と呼びます。

AIモデルは、大きく分けて二つのフェーズ、「研究フェーズ」と「実装フェーズ」を経て、ビジネスに組み込まれていきます。

研究フェーズは、探索的データ分析(Exploratory Data Analysis)の頭文字を取って、よくEDAと呼ばれます。データの基礎統計や分布などの可視化を行うことで、データの特徴を理解することから始まり、データを加工し、様々なアルゴリズムを用いて試行錯誤しながら、データのパターンをアルゴリズムに学習させられるかを研究します。

そして、良い結果が得られれば、そのアルゴリズムを事業に生かすため実装します。この段階を実装フェーズと呼び、英語では「プロダクショナイズ」と呼ばれています。このフェーズが、データエンジニアリング(図表6参照)の側面とオーバーラップする部分で、データサイエンティストは以下で紹介するデータエンジニアと力を合わせて、モデルを業務フローや商品、サービスに導入していきます。

このようなAIの範囲が、主なデータサイエンティストの役割となります。

次に、データエンジニアリング(図表6参照)とは、データ解析を活用するためのプラットフォームを開発することであり、その役割を担うのがデータエンジニアです。膨大なデータを並列化処理するためのクラウド環境の構築、データの流れの設計、モデルをプロダクショナイズするための仕組みを開発するなど、役割は広範囲に及びます。

日本でもデータサイエンスという言葉をよく耳にするようになりましたが、データエンジニアリングという言葉はまだ広く認知されていないように感じます。ただ、本気でAI活用を目指すのであれば、データサイエンティストと同じくらい重要な役割を担っています。

よくAIは「生ものである」と言われます。一度モデルを開発しても、その後、そのモデルがしっかり機能しているかをモニタリングしたり、さらに性能の良いモデルへバージョン・アップしたりしていかないと、次第に期待する性能が見込めなくなってしまいます。

このプロセスで欠かせないのが、「実験」(図表6参照)です。実験はモデル開発以外にも、例えば、商品購入ページAと商品購入ページBの各転換率を比較する場合、単に数字を比較するのではなく、ベイズ統計(※)など確率論を用いて「ページAの方がページBより優れているということを、どのくらいの確度(50%の確度なのか、それとも98%の確度なのか)を持って言えるか」などを測るために役立てることが可能です。そのため、例えば、既存のページBよりもページAの方が5%高い転換率が見込める場合、その転換率向上の確度が80%を超えるとページAを採用しよう、という議論をすることが可能となります。

このように実験を繰り返すことで、上記のWebページや機械学習モデルのような実験対象を最適化していきます。

また、統計学の領域で、近年海外では、多腕バンディット(Multiarmed bandit)という人間の判断なしに反復的に実験対象を入れ替え、最終的に最適な対象を選択する方法の導入が進んでいます。

例えば、多腕バンディットを導入してすぐは、商品購入ページAと商品購入ページBを同じ程度の頻度でユーザーに表示しますが、アルゴリズムはユーザーの転換率を見ながら、より転換率の高いページが表示されるように調整していきます。実験期間中に出来の悪い評価対象(例:転換率が悪いWebページ)を長く運用してしまうと、収益圧迫に繋がってしまうことが実験の副作用ですが、多腕バンディットはその費用を抑えるためのソリューションになりつつあります。

この「実験」の分野に関しても、ベイズ統計などを活用した解析はデータサイエンティストが担当し、そのような実験に必要なプラットフォーム開発はデータエンジニアが担当します。

このように、AIやデータエンジニアリングだけに焦点を当てても、様々な役割が存在するため、データ解析は決して一人で完結できる業務ではなく、チーム・スポーツと同じであると理解していただけたかと思います。

また、特に商品やサービスにAIを活用したいと考えると、データサイエンティストやデータエンジニア以外に、商品の設計や開発を管理するプロダクトマネジャー、Webサービスなどの開発を担当するエンジニアやデザイナーとディスカッションを繰り返しながら業務を進めなければ、正しくAIや実験を事業に組み込めません。

日本では、このチーム力の重要性がまだあまり認知されていないと感じますが、今後データサイエンスが成熟するにつれて、「データ解析はチーム・スポーツである」という概念が一般的となるでしょう。

※ ベイズ的解釈に基づく統計学分野の理論

データ分析チームの作り方
中澤公貴(なかざわ・きみたか)
AI inside株式会社執行役員CDO。カリフォルニア大学バークレー校環境経済・政策学部卒。GalvanizeUデータサイエンス修士卒。これまでに日米にて保険、健康テクノロジー、製造業、不動産、金融、決済、Eコマースと幅広い分野のデータ解析案件に携わる。米国の産学連携プログラムGalvanizeUにてデータサイエンス修士を取得後は帰国し、パクテラ・コンサルティング・ジャパンではチーフ・データサイエンティストとしてクライアント企業のデータ戦略立案からデータ解析を担当。2017年7月よりAnyPay株式会社にてCDO(Chief Data Officer)として社内データ・AI活用に広く従事。その後、個人で開発していた機械学習プラットフォーム事業をAI inside株式会社に譲渡し、解析アドバイザーとして同社のAI基盤開発をサポート。2019年8月より執行役員CDOとして同社に参画し、データエンジニアリング部を統括する。また、データ解析アドバイザーとして活動する傍ら、AIジョブカレにてデータサイエンス講師も務める(本データはこの書籍が刊行された当時に掲載されていたものです)

※画像をクリックするとAmazonに飛びます