人間らしく、与えられた業務をほぼ完璧に応対する「LINE AiCall」
砂金: 「音声認識」と一口に言っても、さまざまな要素技術があります。まず重要なのは、音声を認識する手前の信号処理です。CLOVAの音声認識は、「アコースティックモデル」と「ランゲージモデル」という二つのしくみに分かれています。前者は、環境音を含めたさまざまな音から音素を抽出する技術で、後者はそうした音素から言語を認識して、言葉にしていく技術です。
アコースティックモデルでは、まずきちんと音声信号をキャッチすることが必要です。たとえば、指向性マイクをつけて方向問わずしっかり音を拾う、また16kHzという広い帯域幅を利用してシステムが聞き取りやすい信号を送る、といったことが求められます。
ただ、現在ではこうした技術の精度が非常に上がってきています。たとえば、8kHzという電話回線で使われるようなせまい帯域幅で、かつ多少のノイズがあっても、精度よく音声を認識できるようになっています。3年前では、これはできませんでした。こうした技術の進化を活かして開発したのが、「LINE AiCall」というサービスです。音声認識(CLOVA Speech)と音声合成(CLOVA Voice)、また会話制御の技術を組み合わせることで、電話回線でAIによる自然な対話応答を実現するというものです。

砂金: 初めは、音声認識チームが社内向けつくった簡単なプロトタイプでした。ところが、予想以上にいい仕上がりだったので、プロダクト化することにしたのです。
技術的に、いくつも難しいポイントがありました。まず一つは、人間の自由発話における、言葉や文の区切りの認識です。これができないと、AIは適切な返答ができません。
そこで、私たちは「ナローバーティカル」という戦略をとりました。これは、あえてAIがこなすタスクの範囲を限定するということです。LINE AiCallでは、今のところ予約機能しかありません。そこでAIが認識しなければならないのは、日時と人数、名前だけです。それらの情報をもとに、予約台帳に問い合わせをして、この時間は予約可能/不可能ということを判断して、返答します。
つまり、汎用的なAIを一つまるごとつくるのではなく、ナローバーティカルなシステムを用途や業界ごとにたくさんつくることで、ユーザー体験を高めていこうという発想です。
できることが限られる分、そのAIの対応レベルは人間と同等なものまで高めます。その際に私たちの強みとなるのが、ボイスUIのデザインです。淡々と機械的な声で応対するのではなく、電話の相手がAIだと意識させないような自然な会話をデザインするのです。
こうした音声デザインの職人が、実は弊社にはそろっているのです。ナローバーティカルにしたことにより日時と人数、名前など聞き出す情報が限られている分、そうしたこまかなデザインも極限まで追求していくことができるわけです。
小泉: なるほど。そうした実用的できめこまやかなモデルがたくさん出てくることで、人々はユーザー体験の変化を実感できますね。
砂金: はい。そこがまず入口になります。では、そうしたナローバーティカルなエンジンがたくさん使われるようになってくると、次はもう少しメタ的な理解ができないか、という要求が出てきます。たとえばレストランの予約であれば、禁煙/喫煙の選択や、駐車場があるかどうか、Go To Eatキャンペーンの対象になるかなど、対応の範囲を広げたくなるわけです。
ただ、こうした場合でも、それぞれ個別の事項に対応したドメインをつくり、あとは組み合わせていくだけで十分です。目的は、あくまでユーザー体験の向上です。高度な技術によって全能なAIをつくらなくても、ユーザーにとって心地よいサービスは創れるのです。
たとえば、現在のコールセンターでは、「●●をご希望の方は1を」という質問から始まるしくみ(IVR:Interactive Voice Response)が使われていますよね。それに対してLINE AiCallでは、まず顧客の要望から自然に対話を始められるようなサービスを提供します。LINE AiCallの開発は、今着実に進んでいます。
後編へ続く
無料メルマガ会員に登録しませんか?

技術・科学系ライター。修士(応用化学)。石油メーカー勤務を経て、2017年よりライターとして活動。科学雑誌などにも寄稿している。