なめらかで心地よいユーザー体験のために、AI技術を使いこなす　―LINE AIカンパニーCEO 砂金信一郎氏インタビュー【後編】

LINE株式会社AIカンパニーのCEOを務める砂金信一郎氏。本稿では、砂金氏のLINEでのこれまでの活動や、AIカンパニーの現在と今後のビジョンについてうかがったインタビューの後編をお送りする（聞き手：IoTNEWS代表小泉耕二）。前編はこちら。

AIを使って伝えたいのは情報ではなく、気持ち

IoTNEWS 小泉耕二（以下、小泉）：　先程（前編の最後）は、タスクの範囲を限定することで、AIが自然な対話応答をこなす「LINE AiCall」の技術についてうかがいました。では、人間の自由な発話を認識する技術については、どうでしょうか。

LINE 砂金信一郎氏（以下、砂金）：　自由発話の音声認識についても、着実に開発が進んでいます。音声認識は一般に、短い発話に特化する場合と、長い発話に特化する場合で、技術的なアプローチが異なります。コミュニケーション・ツールを展開するLINEでは、どちらかというと短い発話の認識の方が得意です。

しかし現在では、長い対話も認識できるような技術ができてきています。たとえば、会議のようなシチュエーションでは、それぞれの人の発言は、とても長い内容になります。このとき、長い文章をきちんと認識し、また「前後の発話から、きっとこういう話をしている」というように文脈を推論することで、発言内容をテキスト化したり、内容をサマライズしたり、キーワードをピックアップしたりできる技術が、ほぼ完成しています。

また、大人数でなければ話者分離ができる技術もできています。ですから、たとえばインタビュー記事の書き起こしなどにおいても、AIがほぼすべてを代替し、人間はこまかい部分を直すだけ、ということがいよいよ汎用的なレベルで実現できるはずです。日本語版では、半年〜1年以内にローンチできるかと思います。

小泉：　そのような技術まで開発していたのですね。驚きです。

砂金：　また、AIが人間と「対話」するという目的においては、音声認識だけではなく音声合成の技術も重要です。

冷静に事実だけを伝えるという点においては、音声合成の技術はほぼ完成されてきています。ただ、LINEが実現したいのは、「感情豊かな音声」の実現です。たとえば駅のアナウンスなどでは、冷静に事実を伝えることだけが必要であり、むしろ感情は余計なものになります。

それに対して、LINEが音声合成を使う目的は、システムとの快適な対話（コミュニケーション）ですから、感情をどう表現するかの方が重要なのです。アバター（システム）と人間の会話がいまだに成立しないのは、人間と人間が話すことの価値が大きいからです。その差は、感情にあります。

たとえば、LINEのスタンプも同様です。スタンプの目的は、絵柄を送ることではありません。「ありがとう」の気持ちを、スタンプを使って表現するのです。どんなときでも人が伝えたいのは情報でなく、気持ちのはずです。

なめらかで心地よいユーザー体験のために、AI技術を使いこなす　―LINE AIカンパニーCEO 砂金信一郎氏インタビュー【後編】 — LINE株式会社執行役員/AIカンパニーCEO 砂金信一郎。内閣官房情報通信技術（IT）総合戦略室 CIO補佐官も兼務。2016年9月にMicrosoftを退職し、LINEに入社。ビジネスプラットフォーム事業室戦略企画担当ディレクターを経て、2020年2月にAIカンパニーCEO、またLINE全体のAI事業統括を担当する執行役員に就任した。

砂金：　そして、システムとの「対話」においてもう一つ欠かせないのが、適切な文章を生成する自然言語処理の技術です。この分野では、2016年頃にブレイクスルーがありました。Googleが開発した「BERT」という自然言語処理モデルです。

ただし、BERTにも得意と不得意があります。BERTが力を発揮するのは、事前に学習データをたくさん用意できる場合です。たとえば、FAQ（問い合わせ）の対話例を大量に学習させることで、「あなたが尋ねているのはこのことですよね」と推定し、適切に回答してくれます。

逆にいえば、事前の大量のFAQのデータを用意できなければ、BERTは使えないことになります。ですから、コールセンター事業をすでに展開していた企業であれば、過去のログデータが大量に蓄積されているからいいものの、全くログがない状態で新たにチャットボットシステムをつくりたいという場合には、難しいわけです。

ところが、また新たなブレイクスルーがありました。「GPT-3」とよばれる、文章生成モデルです。これは、Microsoftが大規模な出資をしているOpenAIという研究所が開発した技術です。私はこのデモを見たときに、驚きました。

GPT-3は学習データを与えなくても、AIが自ら言葉を紡ぎ出して、文章を生成できるのです。たとえば、詩を書くことができます。また、「こういう感じのWebサイトをつくりたい」という要求を出すだけで、HTMLでコーディングされたものがアウトプットとして出てきます。

BERTベースのFAQシステムは、あくまで人間が書いたオリジナルの文をAIに学習させます。GPT-3は言葉自体をシステムがつくりだすので、可能性が非常にひろがるのです。

先日、NVIDIAが自社の年次イベントGTCで、NAVERから「DGX SuperPOD」というスパコンを受注したことを発表しました。NAVERとLINEはこのスパコンでGPT-3を動かし、新しい対話エンジンを開発しようとしています。

また、その際に重要となるのが、Yahoo!（Zホールディングス）との統合です。LINEには、口語体の対話データがたくさんあり、またそれらを扱う自然言語処理エンジニアがそろっています。ただし、日本語のWebコンテンツのデータや、それらを処理するのに特化した人材はあまりいません。

そこで、Yahoo!のエンジニアと、LINEとNAVERのエンジニアがうまくコラボすることで、GPT-3とDGX SuperPODの能力を最大限生かせる開発体制が構築できると考えています。