ビジネスの現場では、海外とのコミュニケーションにおける即時性の高い自動翻訳ニーズが高まっている。海外企業の動向や各国特有の事情を知るために、現地の文書や記事をスピーディーに翻訳することができれば、事業やサービスのグローバル化を素早く実現させることが可能となる。
総務省と国立研究開発法人情報通信研究機構(NICT)が共同で運営する「翻訳バンク」では、国内外の企業や団体から翻訳データを集め、多言語自動翻訳システムの社会実装を行っている。
著名な自動翻訳システムを有する巨大IT企業に翻訳データを提供するのとは異なり、自社で生み出した情報を特定のIT企業の利益に貢献することにはならない。翻訳バンクの主体であるNICTが公的機関であることに着目した取り組みなのだ。
翻訳バンクの取り組みについて、NICTフェローであり、長年機械翻訳の研究を続けている隅田英一郎氏に聞いた。
私企業サービスに比べ、コスト面、セキュリティ面で優位性がある
――翻訳バンクはどのような経緯で、自動翻訳エンジン高精度化に資するデータ収集の取り組みを始められたのでしょうか。
NICTでは長年、自動翻訳の研究をしています。開発している自動翻訳エンジンの精度を体感していただくため、スマホ用の多言語音声翻訳アプリ「VoiceTra(ボイストラ)」とWeb翻訳サービス「みんなの自動翻訳@TexTra(テキストラ)」を提供しています。
自動翻訳の高精度化を実現するためには、データの量が重要です。そこで、データの公的集積所として、2017年9月に総務省とNICTで「翻訳バンク」を立ち上げました。あらゆる企業や団体から大量の対訳データ(日本語原文と翻訳文のペア)を提供していただいています。
――対訳データの提供によって、企業にはどのようなメリットがありますか。
公的機関の活動である「翻訳バンク」が民間からの「寄付」という形で対訳データをお預かりし、その代わりに企業の文書に合った高精度な自動翻訳が活用できるようになります。
また、巨大IT企業の翻訳サービスを利用して社内の情報を翻訳させると、情報漏洩につながりビジネスの競争力を脅かすリスクがありますが、翻訳バンク由来の国内企業のサービスであればそのリスクは最小化されセキュリティ面でも安心です。
――企業による対訳データの提供は現在どの程度進んできているのでしょうか。
現状では、特定の産業に偏らず、満遍なくデータが集まってきています。1つ、今後の課題として挙げられるのは、機密情報のデータです。
特定の企業にデータを預けるのとは違うのですが、翻訳バンクでも、提供のハードルが高いのが「契約書」です。
日本企業の契約書と違って欧米企業の契約書は基本的にかなり分厚いです。多くの日本企業の担当者にとって全文を原文で読むのは困難です。そこで翻訳会社に依頼するのですが、それではスピード感に欠けますし、多額のコストもかかってしまいます。
ですが、契約書に出てくる用語はある程度決まっていますので、高精度な自動翻訳システムができれば、企業が契約ごとにかけている時間とお金が大きく節約できるでしょう。
機密性の高い書類のデータをより多くご提供いただくという課題は、データを提供する企業側の理解がカギを握ります。時間がかかるかもしれませんが、翻訳バンクの安全性や信頼性を理解いただけるよう、粘り強く交渉し続けていきたく思います。
ビジネス環境の変化にも迅速に対応可能
――対訳データの提供によって自動翻訳精度が上がり、企業にメリットが還元された具体的な事例を教えていただけますでしょうか。
自動車業界の事例を紹介します。各国に「自動車法規制」という規定があり、自動車を輸出する際にはこれをクリアしないといけません。
自動車法規制は国ごとに違うだけでなく、頻繁に改正もされます。排気ガスが問題視されてきたら排出の基準値が設けられますし、EUでは今、ガソリン車をやめてEV車に切り替える方向で進んでいます。
こうしたビジネスの方向性によって法規制が変わっていく中で、変更点はすぐに翻訳して対応しないと輸出が遅れてしまいます。そうした即時性と専門性が求められるので、自動車分野に適応させた高精度の自動翻訳システムが非常に役立ちます。
実際に翻訳バンクとトヨタ自動車が協調して、自動車法規制を対象とした自動翻訳システムをつくり、その高精度を実証しました。
――業界の専門用語も適切に翻訳できるようになるというのは、汎用的な自動翻訳システムと異なる特徴ですね。
そうですね。高精度化するプロセスを「適応」と言います。よく使われる単語でも、業界によっては特有の訳し方をするものがあります。例えば「CULTURE」は、一般的には「文化」「教養」などの意味で使われますが、医療や生物関連の業界では(細胞等の)「培養」という意味で使われることが多いのです。
そこで、その業界における過去の対訳データをAIに学習させることで、CULTUREを「培養」と一発変換できるようになります。これが「分野適応」というプロセスです。さらに、翻訳バンクでは、個別の会社ごとの言い回しに翻訳できる「個社適応」にも対応しています。
日本人になじみやすい「三方良し」の思想でデータを収集
――各国における自動翻訳システムへの取り組みの現状はどうなっているのでしょうか。
AIの精度を上げるためには、多くのデータを取り込み、機械学習で学ばせる必要があります。データ量がある程度なければ精度は上げられません。翻訳バンクは公的機関の活動であることを利用し、世界中のデータを集約する取り組みを行っています。これにより、個々の民間組織ではできない精度を実現することができるのが大きな特徴です。
アメリカではIT企業によってデータ収集の競争が行われています。一方で我々は、無料で「寄付」してもらうスタンスで進めています。
先ほども申し上げたように、企業は自社でコストをかけてためたデータを翻訳バンクに寄付する代わりに、業務効率化につながる分野適応や個社適応した自動翻訳エンジンを使うことができます。
さらにそれが、業界や社会全体の自動翻訳へと還元されていきます。この「協調」をベースとした取り組みは、かつて近江商人が言った「三方良し」の言葉に裏付けられるように、日本人には馴染みやすい思想ではないでしょうか。
――自動車業界の事例であれば、自動車メーカーは業務効率化、翻訳バンクは自動翻訳精度の向上ができ、社会はメーカーのプロダクトやサービスを享受したり、高精度化されたNICTのサービス(ボイストラやテキストラ)を利用できる。企業、翻訳バンク(NICT)、社会の三方がそれぞれ恩恵を受けることができるということですね。この無料でデータ収集を行うためにはどのようなハードルがありますか。
まずは企業や団体にデータ提供のメリットを理解していただくことです。これがなかなか大変です。業界内の競争意識が、ありとあらゆる活動に影響しているのです。
――翻訳バンクでは、どのようにハードルを乗り越えているのでしょうか。
特に日本の場合、担当者が前向きであっても、何段階もある社内の意思決定プロセスに乗せていく必要があるため、スピード感がありません。ただ一方で、日本は横並び志向が強い。これをうまく利用することを考えています。
例えば、同業他社がデータを提供していることがわかれば、比較的すんなりと提供してもらえたりします。ですから私たちは、そういった企業の事例を数多く発信し、データ提供への心理的ハードルを下げていくようにしています。これらの活動によって、データを提供してくれる企業や業界はどんどん広がっています。
他にも、スキームとしてはいくつも考えられます。業界団体にアプローチをしたり、行政から直接依頼してもらったり。永続性があり好ましいのは、翻訳発注契約書に自動翻訳技術を埋め込んでルーチン化してしまうことです。簡単ではありませんが、データ提供による減税や国会図書館の献本のように法律による義務化など、効果が大きいと思います。
――最後に、今後の展望をお聞かせください。
2つの方向性を考えています。1つめは、文化への展開です。ビジネス分野だけでなく、文化のグローバル化に際しても、自動翻訳は役立つことができるはずです。
もう1つは、海外への展開です。先ほど申し上げたとおり、翻訳バンクのデータ収集は日本特有の仕組みで成り立っています。これを海外にも普及させたいと思います。特にASEANやインドへ展開し、相互に翻訳ができるようになれば、より言葉の壁は解消されていくと思います。
NICTでは2022年3月11日15:00 - 17:00に「第5回自動翻訳シンポジウム」を実施します。私が会長を務める「アジア太平洋機械翻訳協会」では12月8・9日に年次大会が行われました。年次大会で最新の機械翻訳に関する情報を発信し続ける予定です。参加無料ですので、ぜひ最新情報を得に多くの方に来ていただきたいと思います。
▽第5回 自動翻訳シンポジウム~2025年に向けたグローバルコミュニケーション技術~
(主催:総務省、国立研究開発法人情報通信研究機構)
・2022年3月11日(金) 15:00-17:00 開催予定(オンライン配信)
・参加無料、事前登録制 https://jido-hon-yaku.jp/event/event_220311.html