サイトアイコン IoTNEWS

なめらかで心地よいユーザー体験のために、AI技術を使いこなす ―LINE AIカンパニーCEO 砂金信一郎氏インタビュー【後編】

なめらかで心地よいユーザー体験のために、AI技術を使いこなす ―LINE AIカンパニーCEO 砂金信一郎氏インタビュー【後編】

LINE株式会社AIカンパニーのCEOを務める砂金信一郎氏。本稿では、砂金氏のLINEでのこれまでの活動や、AIカンパニーの現在と今後のビジョンについてうかがったインタビューの後編をお送りする(聞き手:IoTNEWS代表 小泉耕二)。前編はこちら

AIを使って伝えたいのは情報ではなく、気持ち

IoTNEWS 小泉耕二(以下、小泉): 先程(前編の最後)は、タスクの範囲を限定することで、AIが自然な対話応答をこなす「LINE AiCall」の技術についてうかがいました。では、人間の自由な発話を認識する技術については、どうでしょうか。

LINE 砂金信一郎氏(以下、砂金): 自由発話の音声認識についても、着実に開発が進んでいます。音声認識は一般に、短い発話に特化する場合と、長い発話に特化する場合で、技術的なアプローチが異なります。コミュニケーション・ツールを展開するLINEでは、どちらかというと短い発話の認識の方が得意です。

しかし現在では、長い対話も認識できるような技術ができてきています。たとえば、会議のようなシチュエーションでは、それぞれの人の発言は、とても長い内容になります。このとき、長い文章をきちんと認識し、また「前後の発話から、きっとこういう話をしている」というように文脈を推論することで、発言内容をテキスト化したり、内容をサマライズしたり、キーワードをピックアップしたりできる技術が、ほぼ完成しています。

また、大人数でなければ話者分離ができる技術もできています。ですから、たとえばインタビュー記事の書き起こしなどにおいても、AIがほぼすべてを代替し、人間はこまかい部分を直すだけ、ということがいよいよ汎用的なレベルで実現できるはずです。日本語版では、半年〜1年以内にローンチできるかと思います。

小泉: そのような技術まで開発していたのですね。驚きです。

砂金: また、AIが人間と「対話」するという目的においては、音声認識だけではなく音声合成の技術も重要です。

冷静に事実だけを伝えるという点においては、音声合成の技術はほぼ完成されてきています。ただ、LINEが実現したいのは、「感情豊かな音声」の実現です。たとえば駅のアナウンスなどでは、冷静に事実を伝えることだけが必要であり、むしろ感情は余計なものになります。

それに対して、LINEが音声合成を使う目的は、システムとの快適な対話(コミュニケーション)ですから、感情をどう表現するかの方が重要なのです。アバター(システム)と人間の会話がいまだに成立しないのは、人間と人間が話すことの価値が大きいからです。その差は、感情にあります。

たとえば、LINEのスタンプも同様です。スタンプの目的は、絵柄を送ることではありません。「ありがとう」の気持ちを、スタンプを使って表現するのです。どんなときでも人が伝えたいのは情報でなく、気持ちのはずです。

LINE株式会社 執行役員/AIカンパニーCEO 砂金信一郎。内閣官房情報通信技術(IT)総合戦略室 CIO補佐官も兼務。2016年9月にMicrosoftを退職し、LINEに入社。ビジネスプラットフォーム事業室 戦略企画担当ディレクターを経て、2020年2月にAIカンパニーCEO、またLINE全体のAI事業統括を担当する執行役員に就任した。

砂金: そして、システムとの「対話」においてもう一つ欠かせないのが、適切な文章を生成する自然言語処理の技術です。この分野では、2016年頃にブレイクスルーがありました。Googleが開発した「BERT」という自然言語処理モデルです。

ただし、BERTにも得意と不得意があります。BERTが力を発揮するのは、事前に学習データをたくさん用意できる場合です。たとえば、FAQ(問い合わせ)の対話例を大量に学習させることで、「あなたが尋ねているのはこのことですよね」と推定し、適切に回答してくれます。

逆にいえば、事前の大量のFAQのデータを用意できなければ、BERTは使えないことになります。ですから、コールセンター事業をすでに展開していた企業であれば、過去のログデータが大量に蓄積されているからいいものの、全くログがない状態で新たにチャットボットシステムをつくりたいという場合には、難しいわけです。

ところが、また新たなブレイクスルーがありました。「GPT-3」とよばれる、文章生成モデルです。これは、Microsoftが大規模な出資をしているOpenAIという研究所が開発した技術です。私はこのデモを見たときに、驚きました。

GPT-3は学習データを与えなくても、AIが自ら言葉を紡ぎ出して、文章を生成できるのです。たとえば、詩を書くことができます。また、「こういう感じのWebサイトをつくりたい」という要求を出すだけで、HTMLでコーディングされたものがアウトプットとして出てきます。

BERTベースのFAQシステムは、あくまで人間が書いたオリジナルの文をAIに学習させます。GPT-3は言葉自体をシステムがつくりだすので、可能性が非常にひろがるのです。

先日、NVIDIAが自社の年次イベントGTCで、NAVERから「DGX SuperPOD」というスパコンを受注したことを発表しました。NAVERとLINEはこのスパコンでGPT-3を動かし、新しい対話エンジンを開発しようとしています。

また、その際に重要となるのが、Yahoo!(Zホールディングス)との統合です。LINEには、口語体の対話データがたくさんあり、またそれらを扱う自然言語処理エンジニアがそろっています。ただし、日本語のWebコンテンツのデータや、それらを処理するのに特化した人材はあまりいません。

そこで、Yahoo!のエンジニアと、LINEとNAVERのエンジニアがうまくコラボすることで、GPT-3とDGX SuperPODの能力を最大限生かせる開発体制が構築できると考えています。

次ページ:ユーザー体験を重視した技術開発がひろがってきた

ユーザー体験を重視した技術開発がひろがってきた

小泉: 砂金さんは、(内閣官房情報通信技術(IT)総合戦略室 CIO補佐官として)政府と協力して、日本のDXを推進していくような仕事も担われています。

そこでお聞きしたいことがあります。最近、人が日常生活の中で感じる「スマートさ」とは何かということを、日本のテックベンダーが理解し始めてきたような実感があるのですが、砂金さんはどう思われますか。

砂金: 同感です。私は、ユーザー体験の「スマートさ」というのは、そのUXの心地よさや、なめらかさにあると思っています。たとえば、LINEが発売しているスマートスピーカーは、現時点ではコマンドを言う前に、「ねえCLOVA」と声をかけなければなりません。

これは、あくまでシステム側の都合です。本当は、もっと自然なUXの方が人間にとって心地よいということはわかっているのですが、まだ解決しなければならない技術的な問題があるのです。ユーザーがどんなふうに働きかけても、柔軟に対応できる懐の深さをシステム全体としてもてるようになると、世の中が大きく変わってくると思います。

小泉: 御社のように、UXの心地よさが何かということを理解していれば、あとは技術的な解決を目指すことになります。一方で、そうしたことに気づけないという課題もありますよね。

砂金: おっしゃるとおりです。私が思う日本のDXの課題は、SIerのエンジニアと、自らプロダクトサービスを創りだしているエンジニアとの間に、まだ大きな「考え方」の隔たりがあるということです。

正直なところ、仕様書通りにプロダクトをつくるという環境の中にとどまっていては、社会を変えるようなサービスを生み出すことは難しいと思います。LINEにも当然まだまだ課題はありますが、それでも自分たちで創ったプロダクトに関してユーザーのフィードバックを受け取り、ユーザーは何が心地よくて、何が心地悪いのかを理解した上で、システムを改善していこうという(アジャイル開発の)プロセスがあります。

この方法を続けていきさえすれば、非効率な山の登り方はすることがあったとしても、必ず高みへと登っていけるはずです。ところが、こうしたアジャイルのしくみがなければ、結局は同じところをぐるぐると回っているしかなくなるわけです。

小泉: どうして、まだ隔たりがあるのでしょう。

砂金: 仮説を立ててプロトタイプをつくり、サービスを少しずつ育てていくというロールモデルがまだ少ないからではないでしょうか。そのため、プロダクトを自ら創り、その体験をユーザーと共有するということに、人生のリスクをかけようとは思えない。しかし、本当は従来の考え方にとどまっていることがリスクであるということを、もっと多くの人に気づいてほしいと思います。

ただ、少しずつ良くなっているとは思います。むこう1~2年くらいが勝負ではないでしょうか。

小泉: その点では、LINEのAIカンパニーがやろうとしていることは、非常にわかりやすいモデルだと思います。今はスマートフォンの中にとどまっているさまざまな技術や機能が、あらゆるデバイスや場面に実装される世界を創っていくということですから。

砂金: ありがとうございます。AIカンパニーでやりたいのは、既存のUXではまだちょっとわずらわしい部分を、AI的なアプローチで解決するということです。音声認識が広く使われるようになったといっても、まだテキストの方がやりやすいという人もいますよね。問題はその微妙な心地よさの差なのです。

また、未来に目をむければ、スマートフォンを出すという行為自体も、エレガントではなくなる時代がいつか来るわけです。お店に入ってスマートフォンを出し、QRコードを読みこむことで注文や決済が完了するというしくみは、今は便利です。でも、そもそもスマートフォンを出す必要がなく、顔認識と音声認識だけで完了すれば、もっと便利ですよね。

もちろん、音声認識や顔認識を導入する上で、プライバシーの問題は別途解決しなければなりません。しかし、そこをクリアしさえすれば、スマートフォンをポケットに入れたまま、色々なこと(決済など)が快適にすませられるようになります。

LINE株式会社 執行役員/AIカンパニーCEO 砂金信一郎。内閣官房情報通信技術(IT)総合戦略室 CIO補佐官も兼務。

私が思うのは、「中国の深センや上海が進んでいる、日本は遅れている」などと言っているうちは、一生彼らには勝てないということです。彼らには彼らの文化、法制度、技術力があり、それらを総合しての中国モデルがあるはずです。私たちがやるべきことは、あくまでユーザーが――日本であれば日本人が――心地よいと思えるようなサービスを創ることです。少なくともLINEの社員はそういう気概でやっているし、またそういう人たちが最近では増えているなという機運は感じます。

小泉: 今後はAI技術を社内に展開するだけではなく、メーカーなどとも協業していくのでしょうか。

砂金: もちろんです。技術提供に限らず、たとえば先程(前編で)ご説明したボイスUXのデザインなど含め、どういうプロダクトのつくり方や改善をしていくと、ユーザーに愛されるサービスになるのかということについては、私たちの知見を活かせるのではないかと考えています。

小泉: AIカンパニーはまだできたばかりの組織ですよね。人材はどれくらい募集しているのですか。

砂金: たくさん募集しているのですが、まだまだ足りていません……。AIカンパニーが求める人材は、優秀な人と一緒に仕事がしたいと思うリサーチャーやエンジニアです。LINEもNAVERも、とても優秀なリサーチャーとエンジニアをそろえており、とてもいい研究環境だと思います。

また、音声認識や言語処理の分野はそれなりにメンバーが充実していますが、コンピュータビジョン(画像認識)の分野については特に人が足りていません。世界的に見て、この分野の人材が日本では比較的少ないのと、LINEに入って画像処理で何をするのかイメージがわかないという人が多いからでしょう。逆にいえば、この分野を得意とする方がLINEに入社してくれたら、すぐに活躍できるかもしれません。

小泉: AIカンパニーのよさは、LINEのブランドやサービスに寄りすぎていないということですよね。さまざまなサービスの間にいて、それらをコネクトし、なめらかにする。そういう点では、今後画像認識で何ができるかということは、非常に面白いテーマだと思います。

砂金: 自分でいうのもなんですが、伸びしろはものすごくあると思います。技術の進化を指数関数のグラフで表すことがよくありますが、LINEが今進めていることは、その指数関数的に急成長する手前の位置にあると言えます。早いうちに、私たちとチャレンジを始めた方がよいのではないでしょうか(笑)。自分が創った技術が、直接ユーザー体験に活かされるということにときめく人がいれば、ぜひ一緒に仕事をしたいと思います。

小泉: 貴重なお話をありがとうございました。

モバイルバージョンを終了