「大規模汎用言語モデル」の可能性と今後の展望　ーLINE 中川潤氏公演レポート

・本記事は、IoTNEWSが主催するDX情報収集サービスDX勉強会において、LINE株式会社 AI事業企画室中川潤氏に、ご講演いただいた内容である。

LINE株式会社では、「CLOSING THE DISTANCE」をミッションと掲げている。「CLOSING THE DISTANCE」とは、「世界中の人と人」、「人と情報・サービス」との距離を縮め、心地良い関係性を創出することである。

そして、このミッションを実現するためのビジョンが「Life on LINE」だ。「LINEは、コミュニケーションアプリの枠を超えて、『LINE』が生活の全ての入り口となり、『LINE』を通じて、ユーザーの生活に必要なことが完結する存在を目指している」とLINE株式会社 AI事業企画室中川潤氏（以下、中川氏）は述べた。

本記事では、LINEが掲げた「CLOSING THE DISTANCE」をもとに、取り組んできたAI技術を活用したプロダクトや事例について紹介する。

LINEがAI技術の活用に取り組む背景

2017年に発表したスマートスピーカーから、2019年に発表した「LINE AiCall」 — LINEでは、2017年にスマートスピーカーを発表し、2019年からはAI技術を事業展開している。

LINEがAI技術を活用したプロダクトを手がけるようになったのは、2017年に発表したスマートスピーカーが大きなきっかけの1つである。

スマートスピーカーを実現するためには、音声対話に必要な音声認識、音声合成、日本語の処理や対話を行うための自然言語処理などの技術が必要となる。2019年からは、そのAI技術を外部向けに展開する事業を開始している。

中川氏は、「日本語を取り扱ったスマートスピーカーとしては、AlexaやGoogle Homeよりも早く市場に展開することができた」と述べた。

3つの革新的要素技術

LINEのAIカンパニーは、「音声認識、音声合成など自然言語処理を中心とした技術」、「画像認識、文字認識、顔認識などコンピュータービジョンを中心とした技術」などのAIテクノロジーを保有している。LINEは、これらコアとなる要素技術を軸にさまざまな取り組みを進めており、技術の基礎研究から要素技術を開発し、ソリューションやプロダクトをサービスとして提供している。

LINEが注力する3つの要素技術「音声認識・合成」、「自然言語処理」、「OCR」

LINEでは、様々な取り組みを行っているが、日本語での音声認識・合成、自然言語処理、そしてOCR、この3つを革新的な要素技術と定め、プロダクトやソリューションの開発・提供に注力している。

この3つの要素技術に注力する理由について中川氏は、「音声認識・合成、自然言語処理、OCRがコミュニケーションに特化した技術であり、もともと『LINE』は、コミュニケーションアプリの提供から始まった会社であったことから、コミュニケーションに特化したこの3つの要素技術に注力すると定めた。この技術の開発が進むことで、ユーザーのコミュニケーションが円滑化し、便利な社会になると信じている」と述べた。

AI-OCRプロダクト「CLOVA OCR」

LINEが提供するAI-OCRプロダクトとして、

定型文書を読み込む「Template OCR」
読み取り結果を確認、修正する「CLOVA OCR Reader」
画像内の文字をすべて抽出し、他のシステムと連携する「General OCR」

を提供しており、いずれも斜め、影、しわなど、きれいに撮影されていない環境でも高い精度で文字を読み取ることができるのが特徴である。

DX勉強会で中川氏は、LINEの「CLOVA OCR」を活用し実際にシンプルなレシートを読み取っている様子を納めたデモンストレーション映像を披露した。デモンストレーション映像では、シワだらけのレシートやコーヒーで汚れたレシート、逆さまに置かれたレシートをLINEの「CLOVA OCR」が読み取り、文字を項目ごとに意味づけして、正確に読み取ることができていた。

「手書きの領収書・レシートを学習させ精度を上げるために使用したAIモデルは、特定のドメインのデータで訓練した特化型モデルと呼ばれるもので、他に身分証明書や、名刺、企業ごとにフォーマットが異なりテンプレートでは対応が難しい請求書などにも対応している」と中川氏は述べた。

「CLOVA OCR」の導入事例

中川氏は、LINEのAI-OCRを実際に導入している「株式会社電通国際情報サービス（以下、ISID）、「株式会社コンカー」、「国立国会図書館」での事例を紹介した。

ISIDでは、企業向けの経費精算システムにレシート特化型の「CLOVA OCR」を組み込み提供しており、コンカーでは、請求書管理クラウドConcur Invoiceにおいて、請求書OCRと連携し、請求書処理に関する業務プロセスを効率化した。

国立国会図書館では、古い書籍を含む大量の蔵書を、「CLOVA OCR」でデジタル化している。「CLOVA OCR」のベースアルゴリズムを利用しながら、昔の漢字やルビなどを含む読み取り難易度の高い要件に合わせたフルカスタマイズで対応している。

プロダクト複合型ソリューション「LINE AiCall」

LINEでは、プロダクト単体ではなくプロダクトを組み合わせソリューション化したサービスも提供している。その一つの例として、「LINE AiCall」が挙げられる。「LINE AiCall」とは、音声認識のプロダクト「CLOVA Speech」と音声合成のプロダクト「CLOVA Voice」および会話制御の仕組みを組み合わせた電話応対AIサービスだ。

「LINE AiCall」は、コンタクトセンターを中心として展開しており、ユーザーからの電話の問い合わせに対して、オペレーターの代わりにAIが発話内容を理解して音声を通じて返答したり、予約受付や各種手続きを完了させることができるものである。

飲食店における電話対応で圧倒的に多いのは、直前の予約や時間変更である。これらを「LINE AiCall」が肩代わりすることで、ホールスタッフは接客に集中することができる。

中川氏は、「LINE AiCall」を導入する際に使用する操作画面について、実際の「LINE AiCall Console」と「会話キャンバス（β）」をもとに解説を行った。

LINE AiCall Consoleは、「LINE AiCall」で使用する基本的な設定を行うための管理画面である。 — 「LINE AiCall Console」は、「LINE AiCall」の基本的な設定を行うための管理画面である。

「LINE AiCall Console（上の画像）」では、音声合成モデルの調整をはじめ、「LINE AiCall」を動かすための基本的な設定を行える。

シナリオ設計をする「会話キャンバス」（上の画像）では、音声認識結果から意図を汲み取った上で、適切な会話を成立させるための基本的なシナリオをGUIで視覚的に設定できる。

「LINE AiCall」の導入事例

中川氏は、「LINE AiCall」の導入事例として、ヤマト運輸、ピーター・ルーガー・ステーキハウス東京での取り組みを紹介した。

導入事例：ヤマト運輸

ヤマト運輸での事例 — ヤマト運輸では、2020年から「LINE AiCall」の導入に取り組んでいる。

ヤマト運輸では、「LINE AiCall」事業をはじめた初期の頃からPoCを実施しており、2020年11月から企業向けの集荷依頼、一般の顧客向けの集荷依頼と段階を踏んで、「LINE AiCall」のAIオペレーターを活用しており、すでに多くの電話対応にAIを活用している。

ヤマト運輸では、「LINE AiCall」で支援する電話対応だけでなく、WebやLINE公式アカウントを利用したアクセス方法も用意するとのことで、顧客の都合にあわせた顧客接点を充実させてゆく構想を持っている。「これは、人間がシステムにあわせるのではなく、システムが人間にあわせて寄り添うべきという、LINEのAIカンパニーがビジョンとして掲げる『ひとにやさしいAI』に近いコンセプトとなっており、今後も引き続き、ヤマト運輸様のチャレンジを支援していきたいと考えている」と中川氏は述べた。

導入事例：ピーター・ルーガー・ステーキハウス東京

ピーター・ルーガー・ステーキハウス東京では、「LINE AiCall」を導入したことで、スムーズな予約体験を提供できるようになった。

今回の取り組みでは、TableCheckの予約システムに登録された、店舗のリアルタイム空席情報と「LINE AiCAll」を連携した。そのことにより、オーバーブッキングなどのトラブル回避や予約の取りこぼし防止などに効果が期待できる。

さらに電話での予約完了後には、LINEのメッセージにて完了通知が届く仕組みを構築した。そのことにより、日時や人数を確認したい場合に再度電話をする必要がなくなる。

大規模汎用言語モデル「HyperCLOVA」

これまでのAI開発は、それぞれの業務要件に合わせて個別に最適化した比較的小さな規模のモデルを、その都度構築するアプローチが一般的であった。最適化することで性能は担保しやすいのだが、モデル構築を行う専門スキルを持った人材の確保が、ボトルネックとなっていた。

そのような中、世界のAI研究開発に目を向けると、GPUの性能が向上し大規模なクラスタを比較的利用しやすくなってきたこともあり、自然言語処理において、OpenAIのGPT-3やGoogleのT5、Hugging Faceというような大規模汎用言語モデルを構築する動きが出てきている。

そこで、LINEとNAVERの共同研究体制で進めているLINE CLOVAにおいても、700ペタ（10の15乗）フロップス（1秒間に行う浮動小数点数演算の回数）を超える大規模なGPUクラスタを確保し、日本語・韓国語での大規模汎用言語モデルを中心とした「ハイパースケールAI」の構築を開始している。それが、大規模汎用言語モデルの開発プロジェクト「HyperCLOVA」である。

2020年のLINE DEVELOPER DAYにおいて、日本語での大規模汎用言語モデルに関する発表を行った。大規模汎用言語モデルにおいては、言葉同士の関連性を示すパラメータの数が非常に重要になるのだが、まずは日本語・韓国語において、それぞれ1.3ビリオンパラメータから徐々に規模を拡大し、現在は39ビリオンパラメータのモデル構築に成功している。

しかし、学習データを集めたパラメータ数の多いモデルを構築すれば良いという話ではなく、技術的な課題をクリアしながら、少しずつ規模を拡大していく必要がある。中川氏は「比較的安定している39ビリオンパラメータのモデルで、応用の可能性を検討しているが、並行して複数の言語を扱う82ビリオンパラメータのモデル構築にチャレンジしており、2022年には204ビリオンパラメータの日本語モデルを構築する予定だ」と述べた。

なお、学習用のコーパスは、外部提供を含めて汎用的に利用できるよう、権利関係に最大限の配慮をしながら整備を続けており、ユーザーがLINEで送受信するメッセージはもちろん、オープンチャットのトークルームの書き込みなどを含め、LINEのサービスに関するデータは一切利用していないとのことだ。

「HyperCLOVA」の可能性

LINEが「HyperCLOVA」の活用において、可能性を探っているのは

要約
文書生成
対話

などの分野である。

AIを活用した、文書生成を行う画面 — 「HyperClova Studio」は、AIを活用した文書生成を行うための管理画面である。

文書生成について同勉強会では、実際に動いている「HyperCLOVA」を利用したデモンストレーションの映像をもとに解説が行われた。デモンストレーション映像では、「HyperCLOVA」をGUIで操作できる「HyperCLOVA Studio（上の画像）」を用いて、商品の概要から説明文を生成させるタスクを行った。

操作方法として、まず「HyperCLOVA」に作文させるためのお手本となるサンプルを人間が入力する。「このお手本の与え方次第で『HyperCLOVA』の出力が大きく変わるため、扱うには若干のコツが必要だ」と中川氏は述べた。

サンプルを入力し実行すると、説明文が自動で生成される。「Temperature」や「Repetition penalty」などのパラメーターを調整することで、自動生成された説明文の表現を変更することができる。そのことにより、例えばECの領域で商品説明文を自動生成したり、パーソナライズされたメッセージを個別に作成するなどのユースケースが想定できる。

中川氏は、「現在、入出力はどちらもテキストを前提としているが、画像や音声信号なども合わせたマルチモーダルな仕組みにもチャレンジしていく」と述べた。

「HyperCLOVA」に残された課題

中川氏は、「技術的な課題が多く残っており、これらを共に解決できるパートナー企業を増やしていきたいと考えている」と述べた。

AIモデル構築 — 「HyperCLOVA」で構築している言語モデルの全体図である。「学習」が大規模なAIモデルの構築を行う際に、課題となる。

「HyperCLOVA」に残された課題として、モデル構築を挙げた。「大規模なモデルの構築には1〜2ヶ月ほど学習に時間がかかり、その学習時間の長さが難易度を高めている」と中川氏は述べた。

ファインチューニングも困難であり、パラメータ数を増やしても性能が思ったより上がらなかったり、パラメータ数を増やしすぎると失敗する確率も高まるなどの課題が残されている。性能の向上を目指す場合、データの増量だけでは効果が出ず、データの質を高めていくことが重要となる。

「さらに、モデル構築を技術的に実現できたとして、実用化に向けても別の課題が存在する、その中でもAI倫理の対応が重要であると考えている。『HyperCLOVA』は、良くも悪くも賢いので、好き勝手にアウトプットしてしまう。その中には、公序良俗に反するものや宗教上の発言や思想的な部分などあらゆる観点で評価する必要があり、正しいアウトプットをするためのフィルタリングをどのように設定するのかが重要になる」と中川氏は述べた。

「HyperCLOVA」の今後の展開

LINEは今後の展開として、大学や研究機関と大規模汎用言語モデルを活用した共同研究を行い、更なる精度向上を目指していくとし、現在進行中のモデル構築を完了させ、外部公開の準備を進めている。

「外部公開の準備と併せて、『CLOVA Chatbot』や『LINE AiCall』などにおける『HyperCLOVA』を活用したシナリオ作成の半自動化にも取り組んでいる。また、『HyperCLOVA』がうまく適用できない領域では、より小型な汎用言語モデルにも取り組んでいく」と中川氏は述べた。

IoTNEWSが提供するDX情報収集サービス

IoTNEWSでは、このような勉強会を含んだDX情報収集サービスを提供している。DXを行う上で必須となる、「トレンド情報の収集」と、「実戦ノウハウの習得」を支援するためのサービスである。

本稿は勉強会のダイジェスト記事だが、実際の勉強会では、IoTやAIの現場を担当している有識者からさらに深い話を聞くことができ、直接質問する事ができる。勉強会以外にも、株式会社アールジーンのコンサルタントが作成するトレンドレポートの提供や、メールベースで気軽な相談が可能なDXホットラインを提供している。

詳細は下記のリンクから確認してほしい。

DX情報収集サービスの詳細はコチラから