サイトアイコン IoTNEWS

自然言語処理技術を搭載した車載コントロールを体験 ~ニュアンス・コミュニケーションズの最新音声技術が搭載されたBMW740e実車デモレポート

IoTNEWS_20170217_BMWdemo_nuance01

自動車のナビ操作における音声コントロール、誰もが一度は体験し、目的地を設定するために何度も問答を繰り返すそのわずらわしさから利用しなくなってしまった人も多いのではないだろうか。

しかし、高精度、高レスポンスな音声認識と自然言語処理による意図理解技術の向上により、自然な口語でスムーズに車載システムをコントロールできる時代が急速に近づきつつある。ニュアンス コミュニケーションズ ジャパン株式会社のオートモーティブ ビジネスユニット プリンシパルマーケティングマネージャーの村上 久幸氏に案内頂き、BMW 7シリーズに搭載されたニュアンスの最新の音声認識技術を搭載したBMW iDriveの音声コントロールを実車BMW740eで体験した。

このBMW7シリーズのモデルにはニュアンスのコネクテッドカー開発プラットフォームである「Dragon Drive」を応用して、BMW社により開発されたインフォテイメントシステム「iDrive」が搭載されている。いままでニュアンスの音声関連の技術は、電装機器関係のサプライヤーを経由して自動車メーカーに提供されることがほとんどであったが、このBMW7シリーズに搭載されたiDriveの開発は、ニュアンスがBMW社へ直接提供する形でおこなわれた。これによりメーカーの細かな要望までも直接入るため様々なニーズをくみ取ることができた。またそれに対するメーカーへのレスポンスも良くすることができ、幾度かバージョンアップを繰り返し完成させたとのことだ。

このシリーズのiDriveにはいくつかの世界初とされている機能が搭載されている。例えば、車載機組込み側とクラウドの両方の音声認識と自然言語理解を同時に利用するハイブリッド構成となっている。ドライバーの発話内容は、組込みとクラウドへ同時に送られて、それぞれで処理をして戻ってきた結果を組込み側のアプリケーションが統合判断して、ドライバに情報を提供する仕組みとなっている。このようにハイブリッド構成にすることで、組込みはレスポンスが早く、クラウドは若干のレイテンシーが発生するものの複雑な自然言語処理、意味理解を行うことができ、クラウドのメリットと組込みのメリットの良いとこ取りのインフォテイメントシステムが実現されている。

車載機に自然言語理解の機能を搭載することで、階層的なメニュー構成を意識せずとも”近くのファミレスに行きたい”や”宇多田ヒカルのファーストラブをかけて”など、直接したいことを話しかけるだけで、自由かつダイレクトに機能を呼び出すことができる。このあたりはスマートフォンのSiriなどでは当たり前となっているが、今までの組込み車載機の音声コントロールの概念が覆された。

また、助手席側の音声が入ったとしてもドライバーから的確な指示が入力されるよう、自動車内装設備にチューニングされる形で組み込まれている。音声コントロールはドライバーが行うことが前提となっており、音声操作中に助手席側の人が話してしまったとしても、助手席側のマイクと運転席側のマイクに入力される音声のタイミングのずれを認識し、助手席の声を除去する技術を搭載し、助手席からの不必要な音声をキャンセして音声認識に流れないようにしている。

それ以外にも、曲名の一部からでも音楽を検索することができたり、システム側が音声案内中でも次の音声コマンドを受け付けることで操作を進めることができるなど、レスポンス性を高めてストレスなくドライバーが音声だけで車載をコントロールできる機能が複合的に搭載されている。

音声コントロールを体験

例えば近くのスターバックスコーヒーに行きたいとき、「えーっと、スタバに行きたいんだけど」と音声を入力する。すると入力された音声はクラウドでテキストに変換され、変換されたテキストから「目的地検索」したいという発話者の意図と、目的地パラメータとして「スターバックスコーヒー」を抽出、この場合、発話者が場所を指定しなかったので検索場所を「現在地周辺」として、車載システム側にフィードバックされる。車載システムは受け取ったタスク、パラメータをもとに候補を検索して近くの目的地候補から順番に表示される。

その後目的地を指定するための「登録番号をどうぞ」とガイダンスが流れるのだが、ガイダンスの途中でも「1番」と発話入力すると認識されるため、自然言語理解により人とガイダンスとの応答の回数が少なくなるだけでなく、人とガイダンスの応答のレスポンスも良くできるため、設定完了までの音声操作のわずらわしさを全く感じなかった。

このほかに「おなかがすいた」と発話入力すると近くのレストランが検索されたり、「八王子でコーヒーが飲みたいんだけど」と発話入力されると八王子の喫茶店、コーヒーショップが検索される。

自分のスマートフォンにBMW専用アプリ「BMW Connected」を設定すると、オンラインニュースの読み上げや、カレンダー連携、Twitter、ショートメッセージの音声読み上げや音声作成などができるようになり、運転中の音声による車載コントロールができる世界がさらに広がる。

ドライバーが「カレンダーを開いて」と発話すると、自分のスマートフォンに設定されているカレンダーの情報が車載システムに連携され直近の予定を表示してくれるので、例えば高速道路を運転中にふと次の予定を知りたくなった時など、手元のスマートフォンを手動操作しなくとも確認ができ、もちろんドライバーが前方をしっかり見て運転ができるよう、予定を読み上げてくれることもできるのだ。

次にドライバーが「ショートメッセージを送る」と発話すると、自分のスマートフォンにアドレス登録されている人の名前で宛先を指定し、送信したいメッセージの入力から送信まですべて音声でコントロールすることができる。

手順を踏んでメッセージを送ることはもちろんのこと、「村上さんにショートメッセージを送りたい。ただいま渋滞中なので少し遅れます。」と一度にすべてを発話しても、「ショートメッセージを送る」というタスクの判定、宛先のパラメータが「村上さん」、メッセージの内容が「ただいま渋滞中なので少し遅れます。」という自然言語理解をクラウドで行われ、ドライバーは簡単にショートメッセージを送ることができる。

また相手から送られてきたメッセージは車載システムの音声合成で再生することもできるので、ドライバーは画面を見ずに運転をしながらショートメッセージのやり取りをおこなうことができる。

Twitterとも連携できるようになっている。ドライバーが「Twitterを開いて」と発話をすると、自分のスマートフォンを経由して自分がフォローしているツイートを取得して、車載システムの音声合成が順番に読み上げてくれる。

自分がツイートしたい場合も、現在地や気温などの情報から生成されるテンプレートから選択して投稿することも、ドライバーが自由に音声で入力した文章を投稿することも可能になっている。

次ページは、「Nuance Automotiveが目指すのはドライバー個々のニーズに応えるバーチャルアシスタント」

Nuance Automotiveが目指すのはドライバー個々のニーズに応えるバーチャルアシスタント

ニュアンスでは自動車メーカーとユーザーが最良のコネクテッドカー体験を実現するために、音声だけでなく自然言語理解やジェスチャー認識、タッチコントロール、対話デザインなど様々な技術を提供している。音声技術だけでなく、ドライビングシーンにおける様々なシーンや環境条件ごとに最適なUIをうまく組み合わせることで、ユーザーがストレスなく快適な操作を行うことができるようになるという考え方だ。

 

ニュアンスはオートモーティブ向けに「Dragon Drive」というコネクテッドカープラットフォームを提供している。自然で直感的な方法でドライバーとのコミュニケーションを実現するためにドライバーの自然な言葉での指示を理解して、必要な情報を自然な合成音声でドライバーに伝えることができるようになっており、音声ガイダンスの途中でも音声認識を使うことができるバージイン機能を搭載したり、ドライバーの様々な要望に応えるパーソナルアシスタントになることができるプラットフォームだという。

また、声紋認証機能も搭載されており、ドライバーの声そのものがパスワードになり認証できたり、パーソナルアシスタントは、人によって異なる音声の特徴(声紋)によってドライバーを識別することで、シートの位置やミラーの向き、エアコンの温度など、様々な個人設定を管理することも可能になる。

さらに、車載器とドライバーが持つスマートフォンとの高度に管理された接続機能も搭載しているなど、自動車メーカーは自動車メーカー独自のブランディング戦略に基づく、個性的なユーザー体験を実現するコネクテッドカーを作り上げるための技術一式を提供している。

 

冒頭にもあった音声処理の要素技術についてもスライドを使って説明を聞くことができた。

車のマイクからは入った音声は、音声信号処理(SSE)を行い、雑音やエコーの除去処理が行われ、きれいな音声が組込み側とクラウド側の音声認識(ASR)に渡される。組込みとクラウドそれぞれの音声認識でテキスト化が行われ、同じくそれぞれの自然言語理解処理により発話内容の意図理解やキーワードなどの認識結果が、車載機側のアプリケーションに渡される。車載機側アプリケーションに組み込まれたオービテーションと呼ばれる機能を使いクラウド側と組込み側の処理結果を比較して最適な結果を次の処理に利用するのだが、どのようなときに組込側とクラウド側のどちらの結果を優先するかは設計思想により大きく左右されることになる。

例えば、住所認識など組込み側だけで完結できる場合は、組込側だけでレスポンスよくユーザーにレスポンスを返すこともできるし、ショートメッセージやTwitterなどの文章入力など、複雑かつ認識語彙数が多い場合はクラウド側を活用する。組込側のソフトと比べると、クラウド側の音声認識の辞書や自然言語理解の意味理解ロジックは常に最新化することが容易であるため常に最新な情報を利用することができる。

Dragon Driveのソリューションを製品のレベルに落とす上記の図のようになる。

今までは、自動車メーカーや伝送機器サプライヤーに対して、音声認識や音声合成など一部の機能だけを切り売りされるケースがほとんどであったが、Dragon Drive のFramework上で音声認識、自然言語理解、音声合成などが実装され、さらにスマートフォンとの連携、Dragon drive cloudとの連携ができるプラットフォーム上に、車載システムがに必要とされる、電話機能や音楽検索、ニュース連携やガソリンスタンド/パーキング検索、天気予報などをアプリケーションレベルまで作りこみモジュール化して提供できるようにしている。

これにより自動車メーカーや伝送機器サプライヤーは、いままで様々な連携、組込み開発をしなければならなかった部分をDragon Driveで実装できるため開発の期間もコストも圧縮できることになる。

 

Nuance Dragon Drive コンセプトムービー

https://youtu.be/laxXWUxXcWs

自動車は、設計が始まってからから市場に出てくるまで比較的時間がかかる。そのため、今市場にでてきている自動車ではまだまだDragon Driveの一部の機能しか使われていないが、ソリューションをフル活用するとさらに利便性の高い車載コントロール体験ができるようになる。

最後にDragon Driveを使うとどんなことまでできるかのショーケースのデモを体験した。例えば、設定した目的地の近くの空いているパーキングを検索のうえ確保し、パーキングの駐車位置まで案内をしてくれるだけでなく、燃料の残量と燃費の実測データをもとに途中によるべきガソリンスタンドを案内をしてくれたり、ドライバーが誰なのかというのを声紋認証したうえで、それぞれの人が一人称の車載コントロールができるようになるなど、まだまだ利便性が向上する機能が尽きない。

紹介されたコンセプトムービーのように、家中と車など統合的なエージェントサービスが提供される時代ががすぐそこまで来ているようだ。

【関連リンク】
ニュアンス・コミュニケーションズ

モバイルバージョンを終了