日本電信電話株式会社(以下「NTT」)は、クルマから見える景色や周辺情報に基づき、知識応答や共感応答をする対話AIを発表した。
この対話AIでは、NTTが構築した深層学習に基づく大規模テキスト対話モデルを、ドライブ中の対話データ・周辺情報データを用いて追加学習することで、景色として見える画像情報および関連する外部知識に基づいて対話をすることができる。
具体的には、画像内の物体の情報と、自己位置周辺のスポット情報を大規模対話モデルに導入。画像内に写っている物体群については、物体検出と呼ばれる技術を用いて抜き出し、それぞれを大規模対話モデルで扱える数値情報(埋め込みベクトル)に変換して入力する。
また、スポット情報については、自己位置近傍のレストラン等のスポットに関する情報(ジャンル・名称等)をテキスト形式で取り出し、対話の文脈と同様の形式で入力。
大規模対話モデルはこれらの入力情報に基づき、反映した対話AIの発話を出力する。
こうして設計されたモデルを、ドライブ対話データ(運転画像を見ながらガイド役・ドライバー役の間で行った対話)で学習することにより、自己位置周辺の景色画像・スポット情報に基づく発話生成を実現している。
また、対話AIは、人がどの時点の画像やスポット情報を話題としているのかを理解しつつ、新規に入力された情報にも適切なタイミングで触れながら対話する必要がある。
そこで、対話文脈からの話題画像推定と、逐次的に入力される画像に対する発話の話題強度の推定技術を開発し、それらを適切にタイミング制御に組み込んでいる。
なお、日本語対話AI研究を推進するため、検証・評価目的に限定して対話モデル・対話データを無償公開している。
今後は、繰り返される対話への適用や、長距離運転時の居眠り運転・漫然運転の防止へ向け、実車・VR等での実証実験を進めるとしている。
今回の成果は、6月2日よりオンラインで開催の、コミュニケーション科学基礎研究所オープンハウス2022に出展される予定だ。
無料メルマガ会員に登録しませんか?
IoTに関する様々な情報を取材し、皆様にお届けいたします。