BERTとは?Googleによる自然言語処理の最新技術と検索・言語ビジネスへの影響

最新の自然言語処理技術である「BERT(バート)」はGoogleが検索エンジンに導入したことで注目される存在となった。これまでの自然言語処理技術(NLP)に比べて、文脈の理解が飛躍的に向上しているという。BERTはWebマーケティングにおけるSEO対策などで、検索結果にどのような影響を与えるのだろうか。また、利用可能な他のビジネスにおいて、どのようなイノベーションを与えるのだろうか。BERTの概要、仕組みについて、導入事例を交えながら、言語関連ビジネスへ与える影響について探る。

目次

  1. 1. 新しい自然言語処理技術「BERT」とは
  2. 2. BERTの特徴:BERTと従来のNLPの違い
  3. 3. BERTが開発導入された背景とは? 導入後の改善例も確認する
  4. 4. BERTの活用事例
  5. 5. BERTを導入するとコンテンツビジネスは変化するのか
  6. まとめ:音声分野のビジネスの基礎テクノロジーとして大きな注目を集めるBERT

1. 新しい自然言語処理技術「BERT」とは

はじめに、新しい自然言語処理技術であるBERTはどのような流れで利用されるのか、基になる自然言語処理技術(以下、NLP)の仕組みとBERTの定義を確認しておこう。

1.1. 自然言語処理技術(NLP)とは

▽自然言語処理(NLP)の役割

BERTとは?Googleによる自然言語処理の最新技術と検索・言語ビジネスへの影響
(画像=BERTとは?Googleによる自然言語処理の最新技術と検索・言語ビジネスへの影響)

従来からあるNLP(Natural Language Processing:自然言語処理)は、人間が話す言語をコンピュータに理解させるための技術のことをいう。コミュニケーションで使う「話し言葉」から論文のような「書き言葉」までの自然言語を対象に、それぞれの言葉が持つ意味を解析する処理技術を指す。

具体的には、上の図にあるように「人間の話す自然言語」を「NLPで処理」し、「コンピュータが理解できる言語にする」という手順を踏む。これによってコンピュータが適切に回答することができる。

日常的に使う例としては、iPhoneに搭載されている音声アシスタント「Siri」や、amazonが開発したバーチャルアシスタント「Alexa」などがわかりやすいだろう。人間からの質問がNLPによってコンピュータが理解できる言語に処理され、すぐにAI(人工知能)が回答してくれる。

このほか、このNLPを使い、リアルタイムで多言語を翻訳できるアプリなども市場に登場している。NLPの技術によって、人間の言葉だけでコンピュータをはじめとする機械を動かすことが、当たり前の時代になりつつあるのだ。

1.2. BERTの定義

BERTとは「Bidirectional Encoder Representations from Transformers」の略で、上述したNLPの一種だ。2018年10月にGoogleから自然言語処理技術として発表された。2019年10月には米国のGoogle検索で導入され、同年12月に日本語Google検索でも導入された経緯がある。

BERTの定義は、Transformer(AIにおける深層学習モデル)によって、双方向で情報をエンコード(データを別の形式に変換すること)して表現することである。

文章を双方向(文頭と文末)から学習でき、従来難しかった文脈、ニュアンスの理解精度を大きく向上させることに成功した。これを可能にしたのがBERTに組み込まれているTransformerという深層学習モデルのアーキテクチャ(構造)である。

翻訳、文書分類、質問への応答といった自然言語処理の仕事の分野をタスクと呼んでいるが、BERTは多様なタスクで高い成果を上げている。

2. BERTの特徴:BERTと従来のNLPの違い

BERTと従来からあるNLPはどのような違いがあるのだろうか。BERTの特徴は文脈が理解でき、汎用性や学習効果が高いことである。BERTは、次の3つの点で従来のNLPよりも優れていると言える。

2.1. BERTの優れている点1:文脈理解が飛躍的に向上

BERTの最大の特徴は、文脈を理解できることである。以前のNLPでは文章中の単語は理解できるものの、単語同士のつながりである文脈を理解することは難しかった。たとえば、BERTが導入される前の日本語Googleの検索で肉以外のステーキ素材を調べたい場合、「肉じゃないステーキ」と入力しても「肉 ステーキ」と同じように認識されていた。そのため、ステーキ店やステーキ肉の通販サイトなどが表示され、本来の検索目的とは違う結果となることがあった。

一方、BERTが導入された後の日本語Googleの検索では、「肉じゃないステーキ」と入力された文章に対して、「じゃない」という単語は「肉」にかかるという文法上の構成をBERTが理解できるため、検索結果は、「肉 ステーキ」の場合と異なる結果が表示できるようになるのである。

2.2. BERTの優れている点2:汎用性が高い

BERTは汎用性が高いという特徴もある。文章の理解力が高いだけでなく、感情の分析も可能になるので、さまざまなタスクに応用できるのだ。

多くの文章には「肯定」と「否定」の感情がある。1つの文章のみでその人物や国などの評価を判断することは難しい。しかし、BERTは膨大な文章を学習することによって、対象に対する肯定と否定の感情の両方を分析することができる。たとえば中国の米国に対する感情は、否定的な文章が多いのであれば「反米的」と理解することができるのだ。

文章における感情を読み取る典型的な例に映画レビューがあるだろう。「面白い」「感動」などのキーワードがあれば肯定的な感情と判断し、「退屈」「がっかり」などのキーワードは、逆に否定的な感情と判断できる。このようにBERTであれば、映画の評価を分析するというタスクに応用が可能だ。NLPに比べてBERTは今後ますます活用される場面が増えることが予想される。

2.3. BERTの優れている点3:学習データが少なくても高い効果を得られる

BERTを活用すると、学習データが少なくても高い効果を得られるのも大きな特徴である。従来のNLPは学習のためのデータ収集と整理のためのラベル付けに多大な時間とコストがかかる難点があったが、BERTはWikipediaなどの膨大な文章データをラベル付けなしに、事前学習することができる。

さらには、従来のNLPでは学習タスクを1つずつ、学習させねばならないところ、BERTでは、既存のタスク実行モデルに学習結果を追加させることができる。これにより、既存のモデルの精度を向上させることができるのだ。この追加作業をFine-tuning、転移学習と呼び、BERTが画期的と注目を浴びた大きな特徴の1つといえる。

2.4. 少ないデータでも学習可能で文脈理解精度の高さを生かした実務導入例

たとえば、NTTデータ先端技術株式会社のPhroneCore(プロネコア)というシステムでは、BERTを活用して営業日報や請求書の内容分析から、文書の整合性やリスクチェックまで、幅広いバックオフィス業務の自動化・効率化を実現している。

バックオフィス業務(総務、人事、財務など)には、文書分類、知識読解、自動要約などさまざまな言語理解が可能なAI機能が必要である。BERTは文脈、ニュアンス理解に優れていることと、少ない学習データでも文書理解が可能なことから、営業日報や請求書の内容分析、文書の整合性チェックなど幅広いバックオフィス業務に対応することができる、している。

PhroneCoreでは、文書の知識化を半自動化する技術である「知識グラフ」を活用することで、人の視点と同じように意味や関係性を認識できるようになるという。BERTと知識グラフという2つの先進自然言語処理技術を組み合わせた例として要注目だ。

▽PhroneCoreのソフトウェア構成図

<参考>BERTの仕組み

従来の自然言語学習モデルは、文章を1つの方向からしか処理できなかったが、BERTはTransformerと呼ばれるAI(人工知能)における深層学習モデルによる、双方向の学習が可能である。そのため、検索する目的の単語を前の文章データから予測する必要がない。

BERTでは、事前学習が可能モデルとして、Masked Language ModelとNext Sentence Predictionという2つの仕組みを採用している。Masked Language Modelでは、文章中の単語を隠し(Masked)、隠された単語を推測することより、文意を学習する。Next Sentence Predictionは、複数の文章の並びの可能性を判定し、文意を学習するものである。従来のNLPが一方向(Sequential)の処理であったことに対し、前後の方向から(Bidirectional)文意を理解できる仕組みとなる。

3. BERTが開発導入された背景とは? 導入後の改善例も確認する

BERTが開発された背景には、インターネットの普及とアクセス端末の変化が大きな要因となっている。この大きな生活習慣の変化により発生する文字や文章理解の課題に対して、BERT導入後には改善例も見られている。はたしてBERTは、どのような仕組みによって、課題改善に貢献したのだろうか。BERT導入の理由と改善例について見てみよう。

3.1. BERT導入の理由

BERTが導入される理由の1つに、「インターネットの発展による検索ワードの多様化と複雑化」がある。

NECによると、日本でインターネットがスタートしたのは1984年の「JUNET」からだ。その後、大きく普及したインターネットは現在、国内利用率も高く、総務省の調査では2020年現在、83. 4%となっている。いまもSNSなどでは毎日膨大な数の書き込みがなされているので、次々に新語が誕生し、検索ワードはどんどん多様化している。

たとえば、よく使われる「ググる」(Googleを使って検索すること)という言葉は、AIがはじめて認識した段階で理解することは困難だろう。AIは「ネットでググっていい店見つけたよ」というような書き込みなどから学習して「ググるとは、インターネットで検索するという意味らしい」と短時間で認識できるようになる必要がある。このような複雑化した検索ワードを判断するには、文脈を理解できるBERTの導入が必要となる。

もう1つが「検索する端末の多様化による音声検索の必要性と進化」である。1995年に「Windows 95」が登場して以来、個人用パソコンが急速に普及し、調べものをするときはパソコンで検索するのが一般的になった。その後、常に携帯するスマートフォンや持ち運びに便利なタブレットなどが普及し、検索する端末も現在は多様化している。

さらに問いかけるだけで検索できる「音声検索」が、高齢者でも使える機能として必要性の高い検索方法になりつつある。音声検索では文字で判断することができないため、イントネーションなどで判断するBERTの進化した高度な技術が必要になる。

たとえば、「機会均等」という言葉は文字で入力すればすぐわかるが、音声では「機会」なのか「機械」なのかはイントネーションや前後のつながりで判断しなければならない。次に紹介するように、文脈理解向上にはBERTの導入が不可欠と言える。

3.2. BERT導入後の改善例

BERT導入後、文脈理解向上による検索結果にどのような改善が見られたのだろうか。EC関連情報マガジン「E-Commerce Magazine」に掲載されている事例を紹介しよう。

「do estheticians stand a lot at work」(エステティシャンは立ち仕事が多いか)という検索クエリ(ユーザーが検索で入力した言葉)の中の「stand」という単語には2つの意味がある。これまでの検索アルゴリズムではキーワードとの合致率を優先して「stand=立つ」ではなく「stand-alone=独立する」という意味を採用した検索結果を表示していた。

BERTの導入後は、前後の文脈から「stand=立つ」を身体的意味と正しく理解し、「この仕事はずっと立ち続けなければならないか」という本来の検索意図に沿った検索結果が表示されるようになった。

▽BERT導入よる文脈理解の向上事例

BERTとは?Googleによる自然言語処理の最新技術と検索・言語ビジネスへの影響
画像引用:Google The Keyword | Understanding searches better than ever before

この事例のように、BERTは文脈理解によって検索結果に確実に好影響を与えていることがわかる。

4. BERTの活用事例

BERTは各分野でどのように活用されているのか、企業サイト、金融分野、医療分野における3つの具体的事例を紹介する。

4.1. 顧客体験:チャットボットによる問い合わせへの適切な対応など

インターネットを通じたチャットボットの活用が広がっている。BERTを導入すると、チャットボットを使って問い合わせてくる顧客へ適切な対応を効率的に行うことができる。

企業の公式サイトを訪れた顧客は一定数コールセンターに電話をかける。電話が集中すればつながりにくくなり、顧客満足度が低下する原因になる。そこで、公式サイトのトップページにチャットで問い合わせできるコーナーを設ければ、顧客は待ち時間なしで回答を得られるため、顧客満足度の向上につながる効果が期待できる。このとき、BERT技術を使ったチャットの問い合わせ解析であれば、精度の高い文脈理解によって、より適切、的確な回答を行うことができるメリットがある。

4.2. 金融分野:FAQの回答自動引き当て、稟議書の記載内容チェックなど

金融分野における公式サイトの多くでFAQ(よくある質問)のコーナーが設けられている。多く寄せられる質問の回答は掲載されているが、なかにはマニアックな質問も考えられる。BERTによるAIエンジンを使って大量のデータから最適な回答を自動で引き当て、ピンポイントで回答できれば顧客にとって利便性が高いだけでなく、サイトへの信頼も向上するだろう。

また、NTTデータが開発している「金融版BERT」では、稟議書の記載内容チェックにも利用されている。稟議とは、「会社・官庁などで、会議を開催する手間を省くため、係の者が案を作成して関係者に回し、承認を求めること(デジタル大辞泉より)」をいう。稟議書はこの案をまとめた書類である。

場合によっては大量となるこの稟議書について、BERTを利用してチェックするためには、より高い精度が求められる。NTTデータの調べによると、金融資格試験得点において「日本語版BERT」が263点だったのに対し、「金融版BERT」は308点をあげている。それだけチェックの信頼性も高まることが期待できる。

4.3. 医療分野:電子カルテの記載内容チェック、医薬品添付文書の情報活用など

医療分野での活用も重要だ。電子カルテの記載内容のチェックや、医薬品添付文書の情報活用などでBERTの技術を活用することが期待されている。

これまで電子カルテの記述は医療従事者に任されていたため、非文法的で断片化した記述が多く、加えて外国語表記や記号もあって複雑化していた。BERTの技術を活用することで医療文書中の「病名、症状」などの固有表現を自動で認識し、類似症例検索、診断支援などに役立てられるメリットがある。

5. BERTを導入するとコンテンツビジネスは変化するのか

インターネット業界でこれから気になるのは、BERTを導入することでコンテンツビジネスは変化するのかという点だろう。BERTを導入した後もSEO的な観点で、評価されるコンテンツに大きな変化はないことが見込まれる。したがって、「検索意図を汲み取る」「独自性・信頼性を高める」「やさしく理解しやすい内容にする」など、本来のSEO対策を重視すればいいだろう。

ただし、音声検索は変化する可能性が高い。AIスピーカーからの音声検索や、チャットボットなどは大きな進化を遂げる可能性があるだろう。

音声検索は、短い単語の羅列ではなく長い文章でとらえてくれるので、より文章の精度を高め、わかりやすく、伝わりやすい文章にする必要がある。また、音声は必ずしもいい文章として発せられるものではないので、これに最適化されたサービスが立ち上がれば、世界の検索状況は大きく変わるかもしれない。

まとめ:音声分野のビジネスの基礎テクノロジーとして大きな注目を集めるBERT

BERTはもともとGoogleによって開発された技術である。それが、広い分野で使われ、ビジネス、エンタープライズの世界でも活用され始めている。自然言語処理の最新技術であるBERTは、未来を見つめる投資家やビジネスパーソンにとって、投資やビジネスチャンスとして今後活用できる場面が多くなるだろう。

BERTが市場のゲームチェンジャーを生み出す基礎技術になる可能性は大きい。とくに、音声分野のテクノロジーとして、注目技術になるそうだ。株式投資においてはBERTの技術を取り入れて事業の拡大を目指す銘柄への投資や、ビジネスでは自社のサービスに積極的にBERTを導入して、業務の効率化や品質の向上を目指すのもいいだろう。

BERTはGoogle Colaboratoryなどを使えば、日本語事前学習モデルを無料で試すことができる。本格投資を検討するにあたり、確認してみるのもよいだろう。

【参考】Google Colaboratoryへようこそ