(本記事は、中澤公貴氏の著書『データ分析チームの作り方』秀和システム2019年9月18日刊の中から一部を抜粋・編集しています)
データサイエンスが飛躍した四つの要因
データサイエンスが世界中で普及し始めた理由は、「機械学習分野の研究」「コンピューター処理速度」「クラウドコンピューティングとビッグデータ処理技術」「データ解析分野のオープン化」の四つの分野が大きく寄与していると言われています。それぞれ見ていきましょう。
機械学習分野の研究
まずは、深層学習など様々な分野の機械学習研究の発展があげられます。例えば、深層学習は、モデルの隠れ層を増やすことでデータの複雑なパターンの学習が可能となります。
また、これまで特定分野の研究者が手間ひまかけて機械学習用の特徴量(※1)を開発していましたが、その一部が機械学習モデルに内包された点も発展に寄与しているでしょう。
例えば、画像解析で、犬の画像と猫の画像を分類することを目的としたモデルを開発するとします。その場合、深層学習の研究が発達する以前は、画像解析のスペシャリストが、犬と猫の特徴(犬は舌が垂れ下がっている、猫は耳が三角形など)を表す機械学習用のデータを作り、モデルに学習させていました。その工程に人の手を使う必要がなくなったのです。
コンピューター処理速度
ニューラルネットワークというアルゴリズムの場合、モデルの隠れ層を増せば増すほど膨大な演算量になります。現在では、様々な構造をしたモデルが提唱され開発されていますが、例えば、モデルの学習時に欠かせない誤差逆伝播法(※2)(Backpropagation)という手法は、すでに1970年には提唱されていました。
そして、深層学習の研究に大いに貢献してきたジェフリー・ヒントン(Geoffrey Hinton)氏らによって、深層学習に誤差逆伝播法が応用されたのも1985年のことでした。今から30年以上も前の話です。ただ、近年まで深層学習が飛躍的に成長できなかったのは、モデルを十分に学習させられない、ということが一つの大きな問題となっていたからです。コンピューターの処理速度が主なボトルネックとなっていたのです。
データサイエンティストならよく体験することですが、少し隠れ層を増やした深層学習モデルをノートPC上のCPU(※3)で学習させようとするだけで、ほかのモデルと比にならないほどの時間がかかってしまいます。そういったモデルを業務で使うことを考えると、より強力なコンピューターが必要でした。ただ深層学習に誤差逆伝播法が応用され、30年ほど経過した現在、個人でも気軽にクラウド上のGPU(※4)にアクセスできたり、最近では例えばグーグルが独自に機械学習用途のTPU(※5)を開発するなど、膨大な演算量であっても高速な処理が可能となりました。
クラウドコンピューティングとビッグデータ処理技術
コンピューター自体の進歩以外に、クラウドコンピューティングとビッグデータ処理技術の発達も、モダン・データサイエンスの発達に大きく貢献しています。これまでは一つのコンピューター上で縦列にしか処理できなかったデータの前処理やモデルのパラメーターを最適化するなどのチューニングを、クラウド上で多くのコンピューターを用いて並列に処理することで、データの処理時間を飛躍的に下げることが可能となりました。
こういった膨大なデータや解析プロセスを並列処理する解析用プラットフォームは、現在、AIドリブン企業には欠かせないものとなっています。
データ解析分野のオープン化
最後に、オープンソース・プロジェクトと論文のオープン化も、データサイエンスの発達に大きく貢献しているでしょう。
近年のデータサイエンス領域では、組織をまたぐ情報の共有が非常に活発です。サンフランシスコでは、毎日、競うようにして各社がデータ解析周りの取り組みを、講演やワークショップ形式で公開しています。そして、そのような場で、自社で開発していた解析ツールのオープンソース化を発表することもあります。
今では、データ解析の分野で欠かせないツールのほとんどは、オープンソース化されています。そのため、中小企業から個人事業主まで、様々な組織がお金を払うことなくデータ解析を始めることができるようになりました。また、オープンソース化されている解析ツールは、誰でもそのツールの修正個所などを主要開発者に提案することができるため、組織が一から解析ツールを開発するよりも、ツールの開発速度が上がるケースが多いのです。
また、データ解析領域の論文の多くは、arXiv(※6)上に無料で公開される場合が多く、世界中の誰でも、最新の技術や解析手法の詳細を知ることができます。
では、なぜ企業はそういった競合優位性のあるツールや論文を公開するのでしょう。企業により様々な理由はありますが、一つ共通しているのは、そのような活動をすることで、優秀なデータサイエンティストやエンジニアを採用するのに有利となるからです。
現在、売り手市場のデータ解析領域の中で、優秀な人材を採用することは容易ではありません。そのため、こういった取り組みを行うことで、自社に興味を持ってもらうのです。結果、優秀な人材が集まればさらに良い解析ができるため、さらなる競合優位性に繋がります。
このように、情報の共有に対してオープンであることも、近年のデータサイエンスの発展に大きく寄与しているのです。
※1 予測対象を説明するためのデータ。説明変数とも呼ばれる
※2 機械学習において、ニューラルネットワークを学習させる際に用いられるアルゴリズムの一つ
※3 Central Processing Unitの略。主にコンピューター内で演算や制御を行うプロセッサ
※4 Graphics Processing Unitの略。主にコンピューターグラフィックスの演算などを行い比較的単純な処理に特化したプロセッサ
※5 Tensor Processing Unitの略。Googleが機械学習に特化して開発したプロセッサ
※6 主に理系の研究論文の電子ファイルを受け付けているリポジトリで、無料公開されている。現在はコーネル大学図書館が運営(https://arxiv.org/ )
※画像をクリックするとAmazonに飛びます