一般的な対話形式のやりとりで人工知能(AI)を利用できる生成AI「チャット(Chat)GPT」が話題になっている。個人でも無料利用できるため、いよいよAIが身近になったと感じている人も多いだろう。確かに手紙や案内文の作成などは、ChatGPTをはじめとする生成AIが的確な文章を瞬時に自動作成してくれる。

「ノイズ」が生成AIを誤らせる

しかし、こうした汎用性の高い文章はともかく、個別の情報が必要な文章となると使い物にならないケースが多い。たとえば自分の氏名を検索する「エゴサーチ」をしてみれば、有名人でない限りとんでもない結果が出てくる。

筆者の場合、かつて在籍していた会社の社長と出てきた。しかし、同社の社長になった経験はない。しばらく経って再び調べたところ、京都大学の教員になったりイラストレーターになったりと次々と変わった。もちろん京大とは縁もゆかりもないし、仕事どころかプライベートでイラストを描いたことすらない。

なぜ、こんなことになるのか?実はChatGPTを「素」のまま使うと、ウェブ上のあらゆる情報を引っ張ってくる。つまり有名人でない人名を検索すると、その人物の情報量が少ないため、例えばウェブページに同じ人名があれば、同一ページの無関係な情報を組み合わせて情報を生成するのだ。

つまり一般的ではない「ニッチな情報」を調べた場合、ChatGPTでは多くの「ノイズ」も取り込んでしまうことになる。それを防ぐには、主に2つの方法がある。1つは自分たちが集めた、あるいは購入した、ノイズを含まない「クリーンデータ」のみでChatGPTのような対話型AIを動かすことだ。


カネかスキルがなければ使えない生成AIの「落とし穴」

大量のデータを集めたり、購入したりするには多額の資金を投じなければならない。併せて独自の対話型AIを動かすには強力なコンピューティングパワーが必要となり、こちらも大きなコストがかかる。つまり大企業でなければ、期待される結果を引き出すことはできない。

完全ではないにせよ、ChatGPTのノイズを軽減する方法はある。それはAIが拾ってくるデータを絞り込むことだ。ChatGPTのAPI(ソフトウェアコンポーネント同士が互いに情報をやりとりするインタフェース)を自作することだ。

例えばニュースサイトから情報を得る場合は、同一サイトに掲載された広告や関連ニュース、他サイトへのリンクといったノイズになりうるデータを取り込まないようにAPIを作成する。これにより完璧とは言えないまでも、ある程度は「ノイズ」を除去したデータから回答を生成するようになる。ニッチな情報についても、回答の精度を向上することは可能だろう。

ただ、APIを作成するにはテクニカルな知識が不可欠だ。さほど高度ではないとはいえ、プログラミングのスキルが求められる。現時点では大企業のような資金力を持つか、IT技術者でなければ、生成AIを使いこなせない。

生成AIは間違った情報でも、もっともらしく見せる「文章力」の高さがあるだけに、誤った情報を入手する可能性もある。便利とはいえ、生成型AIを「素」のまま利用するリスクを十分に理解すべきだろう。

文:M&A Online