◉ビッグデータを利用した株価推定の手法

暫く前から、日本でも「ビッグデータ」という言葉をよく聞きますね。それ自体は「超巨大で複雑なデータ集合」という意味でしかなく、巨大で複雑なままでは何の役にも立ちません。ビッグデータから重要な情報を選別したり、意味を見いだせるように再構成したり、様々な工夫を施してこそ初めて価値を持つのです。

さて、ビッグデータを利用した株価推定におけるビッグデータは、主にSNS(twitter等)や掲示板の書き込み等、主に大量の不特定多数の発言を指します。

その大量の発言データを何らかの形で処理し、そこで得られた推定結果を、実際の株価と比較し、株価の動きを説明出来るかを調べるわけです。その処理には、単純な「発言数の多寡」から、文章の意味をコンピュータで分析して「発言の感情のポジティブ・ネガティブを評価したもの」、「発言の感情を類型化したもの」まで様々な方法が考えられます。

それでは次に、ビッグデータを利用した株価推定研究の中で最も有名かつ高い成果を挙げたものを紹介しましょう。

◉86.7%の確率で株式市場の動きを予測した実例

ビッグデータを利用した株価推定の研究で最も重要視されているのは、Johan Bollenらによる“Twitter mood predicts the stock market”(twitterの機嫌が株式市場を予測する)という論文です。

参考: Twitter mood predicts the stock market

具体的には、まず約100万のツイートからスパムツイートを除去した上で、“I feel”などの感情を含んでいると考えられるツイートを抽出します。それらを感情辞書(感情のポジティブ・ネガティブや感情の因子〈落ち着き、警戒、自信、力強さ、優しさ、幸福の6種類〉)を用いてツイートの「感情を評価」した上で、その評価とn日後のダウ平均株価と相関を取るというものです。

結果としては、落ち着き(calm)が3日後の株価をうまく説明する事ができ、機会学習によるモデルの作成によって最終的にダウ平均株価の動きを87.6%説明する事に成功しています。

ビックデータを利用した株価推定の課題>>