自動車のナビ操作における音声コントロール、誰もが一度は体験し、目的地を設定するために何度も問答を繰り返すそのわずらわしさから利用しなくなってしまった人も多いのではないだろうか。
しかし、高精度、高レスポンスな音声認識と自然言語処理による意図理解技術の向上により、自然な口語でスムーズに車載システムをコントロールできる時代が急速に近づきつつある。ニュアンス コミュニケーションズ ジャパン株式会社のオートモーティブ ビジネスユニット プリンシパルマーケティングマネージャーの村上 久幸氏に案内頂き、BMW 7シリーズに搭載されたニュアンスの最新の音声認識技術を搭載したBMW iDriveの音声コントロールを実車BMW740eで体験した。
このBMW7シリーズのモデルにはニュアンスのコネクテッドカー開発プラットフォームである「Dragon Drive」を応用して、BMW社により開発されたインフォテイメントシステム「iDrive」が搭載されている。いままでニュアンスの音声関連の技術は、電装機器関係のサプライヤーを経由して自動車メーカーに提供されることがほとんどであったが、このBMW7シリーズに搭載されたiDriveの開発は、ニュアンスがBMW社へ直接提供する形でおこなわれた。これによりメーカーの細かな要望までも直接入るため様々なニーズをくみ取ることができた。またそれに対するメーカーへのレスポンスも良くすることができ、幾度かバージョンアップを繰り返し完成させたとのことだ。
このシリーズのiDriveにはいくつかの世界初とされている機能が搭載されている。例えば、車載機組込み側とクラウドの両方の音声認識と自然言語理解を同時に利用するハイブリッド構成となっている。ドライバーの発話内容は、組込みとクラウドへ同時に送られて、それぞれで処理をして戻ってきた結果を組込み側のアプリケーションが統合判断して、ドライバに情報を提供する仕組みとなっている。このようにハイブリッド構成にすることで、組込みはレスポンスが早く、クラウドは若干のレイテンシーが発生するものの複雑な自然言語処理、意味理解を行うことができ、クラウドのメリットと組込みのメリットの良いとこ取りのインフォテイメントシステムが実現されている。
車載機に自然言語理解の機能を搭載することで、階層的なメニュー構成を意識せずとも”近くのファミレスに行きたい”や”宇多田ヒカルのファーストラブをかけて”など、直接したいことを話しかけるだけで、自由かつダイレクトに機能を呼び出すことができる。このあたりはスマートフォンのSiriなどでは当たり前となっているが、今までの組込み車載機の音声コントロールの概念が覆された。
また、助手席側の音声が入ったとしてもドライバーから的確な指示が入力されるよう、自動車内装設備にチューニングされる形で組み込まれている。音声コントロールはドライバーが行うことが前提となっており、音声操作中に助手席側の人が話してしまったとしても、助手席側のマイクと運転席側のマイクに入力される音声のタイミングのずれを認識し、助手席の声を除去する技術を搭載し、助手席からの不必要な音声をキャンセして音声認識に流れないようにしている。
それ以外にも、曲名の一部からでも音楽を検索することができたり、システム側が音声案内中でも次の音声コマンドを受け付けることで操作を進めることができるなど、レスポンス性を高めてストレスなくドライバーが音声だけで車載をコントロールできる機能が複合的に搭載されている。
音声コントロールを体験
例えば近くのスターバックスコーヒーに行きたいとき、「えーっと、スタバに行きたいんだけど」と音声を入力する。すると入力された音声はクラウドでテキストに変換され、変換されたテキストから「目的地検索」したいという発話者の意図と、目的地パラメータとして「スターバックスコーヒー」を抽出、この場合、発話者が場所を指定しなかったので検索場所を「現在地周辺」として、車載システム側にフィードバックされる。車載システムは受け取ったタスク、パラメータをもとに候補を検索して近くの目的地候補から順番に表示される。
その後目的地を指定するための「登録番号をどうぞ」とガイダンスが流れるのだが、ガイダンスの途中でも「1番」と発話入力すると認識されるため、自然言語理解により人とガイダンスとの応答の回数が少なくなるだけでなく、人とガイダンスの応答のレスポンスも良くできるため、設定完了までの音声操作のわずらわしさを全く感じなかった。
このほかに「おなかがすいた」と発話入力すると近くのレストランが検索されたり、「八王子でコーヒーが飲みたいんだけど」と発話入力されると八王子の喫茶店、コーヒーショップが検索される。
自分のスマートフォンにBMW専用アプリ「BMW Connected」を設定すると、オンラインニュースの読み上げや、カレンダー連携、Twitter、ショートメッセージの音声読み上げや音声作成などができるようになり、運転中の音声による車載コントロールができる世界がさらに広がる。
ドライバーが「カレンダーを開いて」と発話すると、自分のスマートフォンに設定されているカレンダーの情報が車載システムに連携され直近の予定を表示してくれるので、例えば高速道路を運転中にふと次の予定を知りたくなった時など、手元のスマートフォンを手動操作しなくとも確認ができ、もちろんドライバーが前方をしっかり見て運転ができるよう、予定を読み上げてくれることもできるのだ。
次にドライバーが「ショートメッセージを送る」と発話すると、自分のスマートフォンにアドレス登録されている人の名前で宛先を指定し、送信したいメッセージの入力から送信まですべて音声でコントロールすることができる。
手順を踏んでメッセージを送ることはもちろんのこと、「村上さんにショートメッセージを送りたい。ただいま渋滞中なので少し遅れます。」と一度にすべてを発話しても、「ショートメッセージを送る」というタスクの判定、宛先のパラメータが「村上さん」、メッセージの内容が「ただいま渋滞中なので少し遅れます。」という自然言語理解をクラウドで行われ、ドライバーは簡単にショートメッセージを送ることができる。
また相手から送られてきたメッセージは車載システムの音声合成で再生することもできるので、ドライバーは画面を見ずに運転をしながらショートメッセージのやり取りをおこなうことができる。
Twitterとも連携できるようになっている。ドライバーが「Twitterを開いて」と発話をすると、自分のスマートフォンを経由して自分がフォローしているツイートを取得して、車載システムの音声合成が順番に読み上げてくれる。
自分がツイートしたい場合も、現在地や気温などの情報から生成されるテンプレートから選択して投稿することも、ドライバーが自由に音声で入力した文章を投稿することも可能になっている。
次ページは、「Nuance Automotiveが目指すのはドライバー個々のニーズに応えるバーチャルアシスタント」
無料メルマガ会員に登録しませんか?
1975年生まれ。株式会社アールジーン 取締役 / チーフコンサルタント。おサイフケータイの登場より数々のおサイフケータイのサービスの立ち上げに携わる。2005年に株式会社アールジーンを創業後は、AIを活用した医療関連サービス、BtoBtoC向け人工知能エンジン事業、事業会社のDXに関する事業立ち上げ支援やアドバイス、既存事業の業務プロセスを可視化、DXを支援するコンサルテーションを行っている。