世界中で「データサイエンス」が普及し始めた理由

(本記事は、中澤公貴氏の著書『データ分析チームの作り方』秀和システム2019年9月18日刊の中から一部を抜粋・編集しています)

データ分析チームの作り方

データサイエンスが飛躍した四つの要因

(画像=LinGraphics/Shutterstock.com)

データサイエンスが世界中で普及し始めた理由は、「機械学習分野の研究」「コンピューター処理速度」「クラウドコンピューティングとビッグデータ処理技術」「データ解析分野のオープン化」の四つの分野が大きく寄与していると言われています。それぞれ見ていきましょう。

機械学習分野の研究

まずは、深層学習など様々な分野の機械学習研究の発展があげられます。例えば、深層学習は、モデルの隠れ層を増やすことでデータの複雑なパターンの学習が可能となります。

また、これまで特定分野の研究者が手間ひまかけて機械学習用の特徴量(※1)を開発していましたが、その一部が機械学習モデルに内包された点も発展に寄与しているでしょう。

例えば、画像解析で、犬の画像と猫の画像を分類することを目的としたモデルを開発するとします。その場合、深層学習の研究が発達する以前は、画像解析のスペシャリストが、犬と猫の特徴（犬は舌が垂れ下がっている、猫は耳が三角形など）を表す機械学習用のデータを作り、モデルに学習させていました。その工程に人の手を使う必要がなくなったのです。

コンピューター処理速度

ニューラルネットワークというアルゴリズムの場合、モデルの隠れ層を増せば増すほど膨大な演算量になります。現在では、様々な構造をしたモデルが提唱され開発されていますが、例えば、モデルの学習時に欠かせない誤差逆伝播法(※2)（Backpropagation）という手法は、すでに1970年には提唱されていました。

そして、深層学習の研究に大いに貢献してきたジェフリー・ヒントン（Geoffrey Hinton）氏らによって、深層学習に誤差逆伝播法が応用されたのも1985年のことでした。今から30年以上も前の話です。ただ、近年まで深層学習が飛躍的に成長できなかったのは、モデルを十分に学習させられない、ということが一つの大きな問題となっていたからです。コンピューターの処理速度が主なボトルネックとなっていたのです。

データサイエンティストならよく体験することですが、少し隠れ層を増やした深層学習モデルをノートPC上のCPU(※3)で学習させようとするだけで、ほかのモデルと比にならないほどの時間がかかってしまいます。そういったモデルを業務で使うことを考えると、より強力なコンピューターが必要でした。ただ深層学習に誤差逆伝播法が応用され、30年ほど経過した現在、個人でも気軽にクラウド上のGPU(※4)にアクセスできたり、最近では例えばグーグルが独自に機械学習用途のTPU(※5)を開発するなど、膨大な演算量であっても高速な処理が可能となりました。

クラウドコンピューティングとビッグデータ処理技術

コンピューター自体の進歩以外に、クラウドコンピューティングとビッグデータ処理技術の発達も、モダン・データサイエンスの発達に大きく貢献しています。これまでは一つのコンピューター上で縦列にしか処理できなかったデータの前処理やモデルのパラメーターを最適化するなどのチューニングを、クラウド上で多くのコンピューターを用いて並列に処理することで、データの処理時間を飛躍的に下げることが可能となりました。

こういった膨大なデータや解析プロセスを並列処理する解析用プラットフォームは、現在、AIドリブン企業には欠かせないものとなっています。

データ解析分野のオープン化

最後に、オープンソース・プロジェクトと論文のオープン化も、データサイエンスの発達に大きく貢献しているでしょう。

近年のデータサイエンス領域では、組織をまたぐ情報の共有が非常に活発です。サンフランシスコでは、毎日、競うようにして各社がデータ解析周りの取り組みを、講演やワークショップ形式で公開しています。そして、そのような場で、自社で開発していた解析ツールのオープンソース化を発表することもあります。

今では、データ解析の分野で欠かせないツールのほとんどは、オープンソース化されています。そのため、中小企業から個人事業主まで、様々な組織がお金を払うことなくデータ解析を始めることができるようになりました。また、オープンソース化されている解析ツールは、誰でもそのツールの修正個所などを主要開発者に提案することができるため、組織が一から解析ツールを開発するよりも、ツールの開発速度が上がるケースが多いのです。

また、データ解析領域の論文の多くは、arXiv(※6)上に無料で公開される場合が多く、世界中の誰でも、最新の技術や解析手法の詳細を知ることができます。

では、なぜ企業はそういった競合優位性のあるツールや論文を公開するのでしょう。企業により様々な理由はありますが、一つ共通しているのは、そのような活動をすることで、優秀なデータサイエンティストやエンジニアを採用するのに有利となるからです。

現在、売り手市場のデータ解析領域の中で、優秀な人材を採用することは容易ではありません。そのため、こういった取り組みを行うことで、自社に興味を持ってもらうのです。結果、優秀な人材が集まればさらに良い解析ができるため、さらなる競合優位性に繋がります。

このように、情報の共有に対してオープンであることも、近年のデータサイエンスの発展に大きく寄与しているのです。

※1 予測対象を説明するためのデータ。説明変数とも呼ばれる
※2 機械学習において、ニューラルネットワークを学習させる際に用いられるアルゴリズムの一つ
※3 Central Processing Unitの略。主にコンピューター内で演算や制御を行うプロセッサ
※4 Graphics Processing Unitの略。主にコンピューターグラフィックスの演算などを行い比較的単純な処理に特化したプロセッサ
※5 Tensor Processing Unitの略。Googleが機械学習に特化して開発したプロセッサ
※6 主に理系の研究論文の電子ファイルを受け付けているリポジトリで、無料公開されている。現在はコーネル大学図書館が運営（https://arxiv.org/ ）

中澤公貴(なかざわ・きみたか)

AI inside株式会社執行役員CDO。カリフォルニア大学バークレー校環境経済・政策学部卒。GalvanizeUデータサイエンス修士卒。これまでに日米にて保険、健康テクノロジー、製造業、不動産、金融、決済、Eコマースと幅広い分野のデータ解析案件に携わる。米国の産学連携プログラムGalvanizeUにてデータサイエンス修士を取得後は帰国し、パクテラ・コンサルティング・ジャパンではチーフ・データサイエンティストとしてクライアント企業のデータ戦略立案からデータ解析を担当。2017年7月よりAnyPay株式会社にてCDO(Chief Data Officer)として社内データ・AI活用に広く従事。その後、個人で開発していた機械学習プラットフォーム事業をAI inside株式会社に譲渡し、解析アドバイザーとして同社のAI基盤開発をサポート。2019年8月より執行役員CDOとして同社に参画し、データエンジニアリング部を統括する。また、データ解析アドバイザーとして活動する傍ら、AIジョブカレにてデータサイエンス講師も務める(本データはこの書籍が刊行された当時に掲載されていたものです)

※画像をクリックするとAmazonに飛びます

世界中で「データサイエンス」が普及し始めた理由

データサイエンスが飛躍した四つの要因

機械学習分野の研究

コンピューター処理速度

クラウドコンピューティングとビッグデータ処理技術

データ解析分野のオープン化

米ドル／円 ―― 日銀による明日31日（金）の金融政策発表を前に下値は限定的だろう

お金の常識をリセットせよ！稼ぐ・増やす・使うの新常識

専門知識だけでは稼げない！英語力と営業力を磨くべき理由

作業で終わるな！信頼される人が添える魔法の一言

やる気を奪う人から離れよう、疲労が感染する職場の心理学

好決算で株価上昇に期待！四半期大幅増益10銘柄 ―― 日本株投資戦略

〈2026年6月〉株主優待新設・拡充27社！注目銘柄をご紹介 ―― 日本株投資戦略

お金の常識をリセットせよ！稼ぐ・増やす・使うの新常識

日米株の下値は限定的、高値更新は半導体・AI株の反発次第

専門知識だけでは稼げない！英語力と営業力を磨くべき理由

NISA向き？50万円未満で買える好業績・好配当期待11銘柄 ―― 日本株投資戦略

好決算で株価上昇に期待！四半期大幅増益10銘柄 ―― 日本株投資戦略

60代が最後のチャンス！年金を増やす2つの方法

ひとり暮らしは不幸ではない、孤立せず自分らしく老いる方法

お金の常識をリセットせよ！稼ぐ・増やす・使うの新常識

世界中で「データサイエンス」が普及し始めた理由

データサイエンスが飛躍した四つの要因

機械学習分野の研究

コンピューター処理速度

クラウドコンピューティングとビッグデータ処理技術

データ解析分野のオープン化

関連記事