この記事は2024年9月12日に「The Finance」で公開された「【証券業界の事例に学ぶ】今すぐ出来る!生成 AI で業務改善 ~成功のコツと「7R」~」を一部編集し、転載したものです。
近年、生成 AI が搭載された多種多様なサービスが出現し、これを使いこなせるか否かが生産性の格差を生むと騒がれて久しい。 本稿では、読者の皆様がご自身の業務へ生成 AI を活用するヒントを得ることを目指し、生成AIを活用する上での考え方のポイントを、証券業務を例にご紹介する。
目次
はじめに
本稿を開いていただいた皆様は、実のところ「生成AI」をある程度ご存知ではないだろうか。そして、ご自身の業務へ活用する手立てがないか検討された経験があり、その際何らかのハードルを越えられずに業務利用を断念した方もいるだろう。
生成AIは個人利用が容易なパッケージとしてすでに普及しており、そのパッケージの中身は一見すると我々人間を模した反応をする。誰もが「自分の仕事を代行させられるのではないか」「むしろ、自分が代替されてしまうのではないか」…と、一度は期待と不安を感じるものである。
だが実際に生成AIを試した大多数の利用者は、「業務利用に堪え得る品質の回答を、高い打率で出すのは難しい」と落胆したり、「自分はそんな簡単に代替されるものではないな」と安堵したのではないか。
さて、それは本当だろうか。
生成AIの厄介な点として、出力プロセスがブラックボックスなため、「なぜ上手くいかないか」を明らかにすることが難しい。
たとえば、金融機関の職員が数字を誤って顧客へ伝える事は許されない。こういった「誤りが許されない」という性質の業務は生成AIと相性が悪く、無理に導入してもかえってリスクやレビューの手間を増す。こうした場面で「指示がおかしいのか、レポートが正しい数値でアウトプットされない」と悩んでいるのであれば、それは指示を誤っているのではなく、使いどころを誤っているのである。
だがこれは、裏を返せば「誤りが許される」業務には活用余地があるとも言える。たとえば証券業界に目を向ければ、予測は必ず誤るものとして断定的判断の提供を禁じられた証券マン達がいる訳である。
前置きが長くなったが、本稿ではさまざまな切り口から生成AIの活用を妨げる原因を言語化し、そのうち「証券業務」を例に生成AIの活用余地を探ることで、「読者の皆さまがご自身の業務に紐付けた生成AI活用の着想を得られること」をゴールと定め、以下の3部で構成する。
- 生成AIについて
- 生成AIを活用するには
- 証券業務を例にした生成AIの活用案
本稿が、読者の皆さまの生成AI活用の一助となることを願っている。
生成 AI について
生成 AI に関する直近の世の中の動き
2022年11月末、「ChatGPT」というLLM(大規模言語モデル)がOpenAIから発表された。
「人間ではなく、AIと会話できる」という、ある種SF的な発想が具現化したこのサービスは、瞬く間に世界中を驚かせた。以後、世界的な大企業から大学発のベンチャー企業まで、各国のさまざまな企業による熾烈な生成AIの開発競争が今日まで続いている。
生成AIを応用したサービスとして、検索結果の自動要約や、プログラミングコードの自動生成など、多岐にわたるサービスが開発・ローンチされている。また言語以外にも、音(人の声・音楽)、画像(写真・絵画・イラスト)、動画(風景・映画)などを扱える生成AIも登場し、日常のあらゆるコミュニケーション手段に生成AIを組み込めるようになった。
企業側の動向にも目を見張るものがある。
パナソニックホールディングスの子会社パナソニックコネクトは、早くも2023年2月から「生成AIによる業務生産性向上と、社員のAIスキル向上、またシャドーAI利用リスクの軽減」を目的に、ChatGPTベースのAIアシスタント導入を開始している。公開情報だけでなく、自社固有の情報に基づく回答も可能な設計となっており、業務利用を積極的に促進した結果、導入から1年で全社の業務を18.6万時間も削減したとしている。
他にも、会計監査・コンサルティングサービスのPwCは、2024年5月、米国と英国で従業員10万人に対してChatGPT Enterpriseのライセンスを付与することを発表した。また再販業者として、同サービスのクライアントへの提供を計画している。
以上のとおり、ここ数年で質的にも量的にも成長した生成AI関連市場は急成長しており、それを業務に活用しようとする取り組みも世界的に進んでいる。
生成 AI の持つ性質
まず、生成AIを活用する上で懸案すべきポピュラーな特徴として、「ハルシネーション」という現象が知られる。
日本語では幻覚を指すこの現象は、ユーザーの入力を誤って解釈し回答してしまうほか、学習データに存在しないことをさも事実であるかのように回答することが指摘されており、改善を重ねた最新のLLMでは頻度こそ抑えられているものの、依然として発生してしまうことが知られている。
ハルシネーションの発生は、 LLM の学習品質とタスクの種類に依存する。性能の低い LLM ほど頻度は高まるし、LLM が学習していない情報を生み出すタスク(最新情報に基づくもの、専門知識を要するものなど)や LLM の構造上苦手とするタスク(数学的計算など)では発生頻度が高まる傾向にある。
また、データプライバシーやセキュリティの問題がある。
生成 AI を搭載したサービスのほとんどでは、ユーザーの入力情報を収集して LLM の改善に用いているため、企業の営業秘密を入力することで、その営業秘密が LLM の開発者や次の世代の LLM ユーザーに知られるリスクがある。
実際にWeb サービスの開発者以外は知るべきでないパスコードや API キーがユーザーの不手際により収集され学習に用いられ、他人に公開される事案が明らかになっている。
データプライバシーやセキュリティの問題については、インプットに含まれる営業秘密等の情報を置換するなどの対策をとるほかないため、利用される各社環境のポリシーに準拠する対応が必要である。次章から、主にハルシネーションの課題を解決して生成AIを活用するにはどのような手立てを講じればいいかを述べたい。
生成 AI を活用するには
上手く扱うための因数分解
生成AIを活用する(≒ハルシネーションを起こさず、望んだ形のアウトプットを得る)ためには、インプット/プロセス/アウトプットの3段階にステップを切り分けて考えることが好ましい。それぞれのステップについて、どのような手段が品質向上に資するかをご紹介したい。
インプット:ハルシネーションを防ぐには
ハルシネーションは、プロンプト(生成AIへの指示文)の記述を工夫することで防ぎやすく、回答品質の向上にも資することが知られている。記述方法に特定のフォーマットの定めはないが、最小公倍数的な型を予めコピー&ペースト可能な形でストックしておくことが効率的であろう。
今回は、7Rと呼ばれる観点をご紹介する。
観点 | 指示内容 | 具体例 |
---|---|---|
1.Request(依頼) | 何をしてほしいか | ・内容を要約して ・具体的な例を挙げて |
2.Role(役割) | どのような立場で回答するか | ・金融機関の営業員として ・製造業のコンサルタントとして |
3.Regulation(形式) | 出力の形式や長さ、使用する言語は何か | ・表形式で出力して ・JavaScriptで記述して |
4.Rule(ルール) | 守るべきルールや制約、禁止事項は何か | ・50文字以内で回答して ・想定質問と回答例はセットで挙げて |
5.Review & Refine(評価・改善) | 出力に対するフィードバック(自己採点)は何か | ・Requestの品質を5段階評価して ・アウトプットを100点満点で自己採点して |
6.Reference(参照) | 参考すべき情報や具体例は何か | ・金融商品取引法に準拠して ・以下の規定に従って(貼付) |
7.Run Scenario(実行シナリオ) | 一連の質問へどのように対応するか | ・足りない情報を逆質問して ・よりよいRequestの案を出して |
Role/Regulation/Rule/Referenceは、真っ先に正確なインプットを行うべき箇所である。この部分でLLMが誤った情報を参照すると、アウトプットはほぼ確実に使い物にならない。たとえば、社内規程に依拠した判断には、社内規程をRule/Referenceに含めないと誤った根拠に基づく推論がアウトプットされてしまう。
ほかに、一部のLLMは特定のWebページを参照するような動作を取るが、一般公開されているWebページの信頼性は当然低い。アウトプットがどの一次情報に依拠するかは確認を要するが、むしろその手間は非効率である。一次情報の吟味を省きたい場合は、Referenceに監督官庁や自主規制機関等のURLを予め指定すると良いだろう。
Requestは、シンプルながら最も独力で品質を上げる難易度が高い。レビュアーとレビュイーが同一人物(=過不足に自ら気付くことが難しい)のためだ。しかし、ここでReview&Refine/Run Scenarioの活用が有効になる。これは、プロセスの内容に当たるため、次項で内容を述べる。
プロセス:望んだアウトプットへ近づけるには
生成AIの優れた点として、アウトプットを自己フィードバック出来る点が挙げられる。前項のReview&Refineがこれに該当する。もちろん、品質を評価するポイントが適切に設定されず、自己フィードバックが適切に機能しない場合もあるが、その場合は「そのアウトプットを60点と仮定して、100点のアウトプットを考えて再提示してください」のように、利用者側から採点をするという手もある。
これらは、都度考えてプロンプトを記述することは手間のかかる作業だが、例えば「100点のアウトプットを再提示」の指示は汎用的に機能するし、何度でも繰り返し試行が可能である。
このように、生成AIへLoop(ループ)処理を意図的に発生させるような、品質向上に向けたRun Scenarioを手法として押さえておくことで、品質向上と労力削減の双方に資すると思われる。
アウトプット:理想的な利用シーンとは
LLMが何をアウトプットするかではなく、利用者がアウトプットを何に使うか、という観点を持つことが重要である。
新たなアウトプットを生み出す際、ハルシネーションはどうしても生じる可能性がある。その場合は、アウトプットの誤りは受容、または修正できる必要がある。従って業務利用という文脈で考えた時、前述の通り「誤りが許されない」性質を持つ業務にLLMは適さない。「誤りが許されるアウトプットの新規生成」が適した業務分類の一つになる。
また、すでにあるインプットのブラッシュアップに関しては、ハルシネーションは発生しづらい。理由は、前述のReferenceに当たる部分が自動的にインプットできるためである。このパターンが活きる業務は多く、「既存のアウトプットを改善する」「既存のアウトプットを要約する(不要な部分を削ぐ)」業務において、人間を遥かに凌ぐパフォーマンスを発揮すると思われる。
次章では、上記の利用シーンをより具体的な実務イメージへ落とし込みつつ記述したい。
証券業務を例にした生成AIの活用案:7Rの実践
生成AIに対するプロンプトの例
前章で記述した 7R の考え方を入力する際には、以下のようなプロンプトを固定し、7R の中身を書き換える形が取扱いやすい。本稿では証券業務を例に取り扱うが、その他の業務でも以下のプロンプト案は流用可能である。
[プロンプト例]
- あなたは[Role]です。[Regulation]と[Rule]を遵守しつつ、[Request]に答えて下さい。
- また、指定がある場合は[Reference]をインプットに用いて下さい。
- また、指定がある場合は[Review]と[Run Scenario]の指示に従ってください。
誤りが許される業務へのアウトプット
現在筆者が筆を執っている 2024 年 8 月の初頭は、まさしく相場急変の只中であった。このような中で、顧客へ手紙を出すこともあれば、電話をかけるシーンもあると思われる。
リテール営業で電子メールを打つ機会は少ないと思われるが、以下のスクリプトだけでも手紙の下書きとしては十分な品質のものが素早く出来上がる。Review を足して改善点等を挙げさせれば、個別顧客に応じて書き換えるべきポイントも定型化可能である。
[プロンプト例]
- Request :半年以上接触のなかった60代~70代の男性へ、時候の挨拶と利上げ観測に伴う相場急変のフォローを行う
- Role :証券会社の営業員
- Regulation :手紙の下書き
- Reference :日本証券業協会(JSDA) 協会員の投資勧誘、顧客管理等に関する規則
既存のアウトプットの改善と要約
営業管理の観点で悩ましい問題として、営業員ごとに営業日誌の粒度が揃わないという課題がある。営業員によっては必要な情報の補記が必要であり、もう一方では記載が冗長で要点が分からない等の悩みもある。そのような粒度の揃っていない文章の塊に対して、以下のようなプロンプトはどうだろうか。
[プロンプト例]
- Request :Referenceのファイル内容の要約
- Role :証券会社の営業管理者
- Regulation :Excel表形式
- Review :各行の要約を5段階で評価し、2以下の場合は追記すべき内容を挙げる
- Reference :[任意の営業日誌ファイル]
注意点として、ファイルのボリュームが大きいと LLM が各行の品質を判定せず、結果をランダム出力する場合がある。
そのような場合は個別行を1行ずつ LLM 側に入力する、または営業担当者に対してこのプロンプトを通して記述するよう指示し、粒度の揃った形式の情報を蓄積するような運用が解決策として考えられる。
総括
具体的なプロンプトの例を通して、既存業務への生成 AI 活用イメージは沸いただろうか。
総括すると、以下の 3 点になる。
- 生成 AI 活用は、どのようにインプットし、何にアウトプットを使うかの判断が重要
- 定型化等でプロンプトを工夫すれば、インプットに起因するハルシネーションは抑制可能
- 活用する業務を見極めれば、アウトプットがハルシネーションから受ける影響は抑制可能
本稿が、読者各位の業務改善に少しでも資することを願っている。
(付録)代表的な製品と、付随サービスの紹介
代表的な LLM について
GPT-4oや、Claude 3.5 Sonnet、Gemini 1.5 Proなど、LLMには各社のフラッグシップモデルと、それに連なる廉価版モデルがあるが、これらを定量的に性能比較することは極めて難しい。
パラメーター数などの変数は非公開のモデルがほとんどであり、唯一定量的に比較しうる応答速度に関しても、生成AIの使途を考えると生産性に与える影響は誤差である。
最も重視すべきはアウトプット品質だが、世に出回る多くのサービスをすべて個人で使用・比較し続けることは現実的ではない。この悩みを解消する取り組みとして、「Chatbot Arena」を紹介しよう。
Chatbot ArenaはあらゆるAIモデルの性能を比較できるWebサイトで、カリフォルニア大学バークレー校有志が設立したLarge Model Systems Organizationにより立ち上げられたものだ。同一インプットに対するアウトプットを2つのLLMに出力させ、製品名を伏せてユーザーによる二者択一の評価を行う取り組みを、数万件単位で積み重ねてスコアリングする。
リアルタイムに更新されるため、性能を比較する際に参考としたい。
https://chat.lmsys.org/?leaderboard
LLM 搭載サービス
<AI 対話系>
サービス | 提供企業 | 特徴 |
---|---|---|
ChatGPT | OpenAI | プロンプトや資料を与えてオリジナルの「GPT」を作成できるGPTs機能が特長 |
Claude | Anthropic | リアルタイムで視覚コンテンツと対話し、会話の中で直接コンテンツを生成、閲覧、編集できるArtifacts機能が特徴 |
Gemini | GmailやGoogle Drive、Google Mapsなどの他のサービス情報をもとに回答を作成できる点が特長。Googleアプリから利用可能 |
<機能特化系>
サービス | 提供企業 | 機能 |
---|---|---|
Copilot | Microsoft | 回答に必要な情報をWeb検索し、検索結果に基づき回答を作成。回答がどのWebページをソースとしているかも確認可能。 |
Perplexity | Perplexity | Copilot同様、検索結果をもとに回答を生成。「Chain of Thoughts(CoT)」という推論手法を採用し、論理的な回答が可能。 |
Create.xyz | Create社 | Webページ作成AI。作成したいWebページのイメージを入力すると、簡単にモックを作成。 |
Cursor | Anysphere社 | VS CodeベースのAI搭載プログラムエディター。AI支援を受けながらプログラムを書ける。 |
平澤 凌志郎 氏
三木 一真 氏