LINE株式会社で、AIアシスタント「CLOVA」をはじめさまざまなAI技術の企画・開発を手がけるAIカンパニー。そのCEOを務めるのが、砂金信一郎(いさご・しんいちろう)氏だ。砂金氏は、2016年にMicrosoftからLINEへ転職。その経緯については、こちらの記事で詳しく紹介している。それから約4年が経った今、砂金氏のLINEでのこれまでの活動や、AIカンパニーの現在と今後のビジョンについて、話をうかがった(聞き手:IoTNEWS代表 小泉耕二)。
LINEのAPIを使いこなせる技術者とのエコシステムづくりを推進
IoTNEWS 小泉耕二(以下、小泉): 前回(2016年)のインタビューでは、長年Microsoftのエバンジェリストとして活躍してこられた砂金さんが、LINEへ転職された経緯などについてお聞きしました。それから約4年が経ちました。まずは、砂金さんのこれまでのLINEでの活動について、お聞かせください。
LINE 砂金信一郎氏(以下、砂金): LINEに入って最初の私の役割は、「Messaging API」のオープン化でした。それまでのLINEのB2Bサービスは、基本的にclosedで垂直統合型だったのです。現在ではAPIを完全にオープン化し、「LINEミニアプリ」として企業に展開しています。
APIのオープン化により、たくさんの企業がLINEの公式アカウントを通じて、さまざまなユーザー体験をシームレスに提供できる環境が整いました。すると次に重要になるのが、そのLINEのAPIを使いこなしてくれるデベロッパー(技術者)のエコシステムづくり、いわゆる「DevRel(Developer Relations)」です。
私はMicrosoftに在籍していた頃、テクニカルエヴァンジェリストとしてDevRelに邁進してきました。ビジネスの成功事例をつくるだけでなく、プラットフォームを使いこなせるデベロッパーさんたちと協力関係をつくることの重要性を、私は身にしみて理解しています。
Messaging APIのオープン化を完了した後は、CTO直下のチームで徹底的にDevRelを推進してきました。昨年に開催した「LINE DEVELOPER DAY 2019」では約2000人が国内外から集まり、セッション数も100を越えました。今年も11月にオンラインで行います(11月25日〜27日)。
小泉: かなり大きい規模ですね。
砂金: はい。幸いなことに、「LINEはDevRelをうまくやっている、やり方を教えてほしい」といった声をいただくことも増えました。確かに国内レベルでは、ようやくいいところまできたなという実感があります。ただ、「Google I/O」のようなグローバルなDevRelのイベントと比べれば、まだまだだと思っています。
また、中堅・中小企業向け(SMB:Small to Medium Business)のB2Bサービスも展開してきました。専用のアプリをわざわざインストールしなくても、LINEのアプリから簡単に、さまざまな企業のサービスを体験できるしくみです。たとえば、役所での情報提供やチャットボット(問い合わせ)、順番待ちサービスのプラットフォームとして、LINEを活用いただいています。
砂金: こうした当初の役割が一通り済んで一息ついた頃、AIカンパニーのCEOをやらないかという話がありました。そこでの私の第一の任務は、AIアシスタント「CLOVA」などに使われているAIの要素技術(音声認識など)を整理・統合して、社内に展開するということでした。CLOVAの開発で培ってきたAIの技術を、LINEが有するさまざまなサービスに実装するためです。
小泉: 砂金さんにうってつけの仕事のように思います。
砂金: ただ、実を言うと、初めに私の上司である舛田淳さん(LINE取締役CSMO)からその話を聞いたときは、かなり悩みました。というのも、私はどちらかというと、職位よりもQOL(Quality of Life)を大事にしたいという考えの人間です。好きな仕事ができて、かつたくさんの予算が使えるなら、そうしたポジションの方がいいのです。
小泉: それでも、決断されたのですね。
砂金: はい。その頃はちょうどZホールディングスとの統合(※)の件もあり、LINEのこれからのビジョンについて私も色々と考える中で、やるべきだと思ったのです。
※韓国のNAVER Corporationの連結子会社であるLINEと、ソフトバンク株式会社の連結子会社であるZホールディングス株式会社は、2019年11月18日に基本合意を発表。2021年3月に経営統合予定。
CLOVAで培ったAI技術を、LINEのさまざまなアプリに実装する
小泉: その砂金さんが率いるAIカンパニーでは、現在どのような活動が進行しているのでしょうか。
砂金: LINEが有するAI技術の中で代表的なものは、音声認識です。「CLOVA Desk」などのデバイスとの対話がわかりやすい例だと思いますが、現在ではLINEアプリ内にも音声検索などの機能が実装されています(「LINE Labs」というお試し機能をONにすることで利用可能)。
CLOVAがユーザーから期待される役割というのは、結局は「検索」です。ただ、求められるUXについては、Google検索のような画面を用いるタイプとは異なります。ボイスUIは、選択肢を並べる画面検索と違い、一度に一つしかユーザーに回答できないからです。
ですからボイスUIの場合は、「あなたが求めているのはこれですね」ときちんと理解したうえで回答する、パーソナライズされたUXが求められます。たとえば、天気を尋ねられた場合にも、自分が住んでいる場所に合わせた天気を教えないといけないわけです。
ただ逆に考えると、そうしたしくみさえできれば、さまざまな課題を解決できることになります。そこで、AIカンパニーの一つ目のミッションは、優れたボイスUIを社内のさまざまなアプリケーションに提供するということになります。
小泉: 音声による検索は自然なものさえできれば、いっきに広がるような気がします。
砂金: はい。とても大きな可能性があると考えています。それに関して、私がMicrosoftにいた頃と違うなと思っていることがあります。それは、日本のマーケットへの期待と、それに伴う日本語対応の重要性です。
たとえば、Windows7がリリースされたときは、日本語はMicrosoftにとって注力すべき重要な言語でした。日本にはPCメーカーがたくさんあり、市場も大きかったからです。そのため、英語版のサービスと同等のクオリティを、ほぼ同時期に日本でも使うことができました。
ところが、最近では英語版のサービスが出ても、日本語版のリリースはもう少し時間がかかる、ということが多いです。特にクラウドソリューション系です。同様に音声認識に関しても、日本語に特化してその性能を上げるということに、USの巨大IT企業はそれほど熱心ではありません。
LINEにとっては、これはむしろチャンスです。日本のみならず、台湾や韓国、タイ、インドネシアなどでは、普段使われているのは英語ではありません。こうした国々の独自の言語に合わせた音声認識や自然言語処理のモデルができれば、GoogleやAmazonにも勝てるはずです。
小泉: そうした音声認識の技術などは、スマートフォンに実装されていくことになるのでしょうか。
砂金: まずはそうです。ただ、LINEにとって重要なテーマは、「スマートフォンはいつまで利用されるだろうか」ということにあります。かつては、新しい機種のiPhone(スマートフォン)が発売されるといったら大騒ぎになったものですが、最近では正直なところ、これまでのユーザー体験の常識を覆すような進化は見られません。
では、いつかスマートフォンが使われなくなる時代が来たとき、LINEも同様に使われないサービスになってしまうのか、ということが問題です。そこで、私は思うのです。LINEにとっての課題は、「人々のコミュニケーションをより円滑にする」ということです。これは、道具としてのテクノロジーは色々変わりつつも、人間にとってはずっと変わらない普遍的な価値です。ですから、コミュニケーションの道具がスマートフォンではなくなったからといって、LINEも使われなくなるというのは違います。
そうした背景も踏まえ、ポストスマートフォンの第一弾としてリリースしたのが、CLOVAを搭載したスマートスピーカーの製品群です。そして、そのときに開発した音声認識などの技術を、さまざまな場面、用途に実装していこうというのが現在の課題です。
人間らしく、与えられた業務をほぼ完璧に応対する「LINE AiCall」
砂金: 「音声認識」と一口に言っても、さまざまな要素技術があります。まず重要なのは、音声を認識する手前の信号処理です。CLOVAの音声認識は、「アコースティックモデル」と「ランゲージモデル」という二つのしくみに分かれています。前者は、環境音を含めたさまざまな音から音素を抽出する技術で、後者はそうした音素から言語を認識して、言葉にしていく技術です。
アコースティックモデルでは、まずきちんと音声信号をキャッチすることが必要です。たとえば、指向性マイクをつけて方向問わずしっかり音を拾う、また16kHzという広い帯域幅を利用してシステムが聞き取りやすい信号を送る、といったことが求められます。
ただ、現在ではこうした技術の精度が非常に上がってきています。たとえば、8kHzという電話回線で使われるようなせまい帯域幅で、かつ多少のノイズがあっても、精度よく音声を認識できるようになっています。3年前では、これはできませんでした。こうした技術の進化を活かして開発したのが、「LINE AiCall」というサービスです。音声認識(CLOVA Speech)と音声合成(CLOVA Voice)、また会話制御の技術を組み合わせることで、電話回線でAIによる自然な対話応答を実現するというものです。
砂金: 初めは、音声認識チームが社内向けつくった簡単なプロトタイプでした。ところが、予想以上にいい仕上がりだったので、プロダクト化することにしたのです。
技術的に、いくつも難しいポイントがありました。まず一つは、人間の自由発話における、言葉や文の区切りの認識です。これができないと、AIは適切な返答ができません。
そこで、私たちは「ナローバーティカル」という戦略をとりました。これは、あえてAIがこなすタスクの範囲を限定するということです。LINE AiCallでは、今のところ予約機能しかありません。そこでAIが認識しなければならないのは、日時と人数、名前だけです。それらの情報をもとに、予約台帳に問い合わせをして、この時間は予約可能/不可能ということを判断して、返答します。
つまり、汎用的なAIを一つまるごとつくるのではなく、ナローバーティカルなシステムを用途や業界ごとにたくさんつくることで、ユーザー体験を高めていこうという発想です。
できることが限られる分、そのAIの対応レベルは人間と同等なものまで高めます。その際に私たちの強みとなるのが、ボイスUIのデザインです。淡々と機械的な声で応対するのではなく、電話の相手がAIだと意識させないような自然な会話をデザインするのです。
こうした音声デザインの職人が、実は弊社にはそろっているのです。ナローバーティカルにしたことにより日時と人数、名前など聞き出す情報が限られている分、そうしたこまかなデザインも極限まで追求していくことができるわけです。
小泉: なるほど。そうした実用的できめこまやかなモデルがたくさん出てくることで、人々はユーザー体験の変化を実感できますね。
砂金: はい。そこがまず入口になります。では、そうしたナローバーティカルなエンジンがたくさん使われるようになってくると、次はもう少しメタ的な理解ができないか、という要求が出てきます。たとえばレストランの予約であれば、禁煙/喫煙の選択や、駐車場があるかどうか、Go To Eatキャンペーンの対象になるかなど、対応の範囲を広げたくなるわけです。
ただ、こうした場合でも、それぞれ個別の事項に対応したドメインをつくり、あとは組み合わせていくだけで十分です。目的は、あくまでユーザー体験の向上です。高度な技術によって全能なAIをつくらなくても、ユーザーにとって心地よいサービスは創れるのです。
たとえば、現在のコールセンターでは、「●●をご希望の方は1を」という質問から始まるしくみ(IVR:Interactive Voice Response)が使われていますよね。それに対してLINE AiCallでは、まず顧客の要望から自然に対話を始められるようなサービスを提供します。LINE AiCallの開発は、今着実に進んでいます。
後編へ続く

