三菱電機、AIを活用して人と自然な言葉で意思疎通ができる「Scene-Aware Interaction技術」を開発

ディープニューラルネットワークを利用した物体認識・動画説明・自然言語生成・音声対話技術は、近年の急速な性能向上により応用範囲の拡大が期待されている。具体的には、周囲の状況を言葉で理解し、ユーザーあるいは管理者に対して事象の詳細情報の通知や次の動作を決定するための相談を言葉で直感的に実現するインタラクションシステムへの応用が見込まれている。

これらの実現には、機器自身が人のように状況を理解する必要があるが、従来の技術では機器がセンシングした複雑な状況を自然な言葉で詳細に表現することができなかった。

三菱電機株式会社は、独自のAI技術「Maisart」を用いて車載機器やロボットなどのさまざまな機器が複数のセンサーを用いて収集した情報(以下、マルチモーダルセンシング情報)から周囲の状況を理解し、人と円滑な意思疎通ができる「Scene-Aware Interaction技術」を開発した。

同技術は、入出力のサンプルだけで学習できるEnd-to-End深層学習(※1)を採用し、カメラで撮影した画像情報、マイクロフォンで集音した音響情報、ライダーやレーダーで取得した位置情報などのマルチモーダルセンシング情報から周囲で起きている状況を機器が理解することができる。

また、マルチモーダルセンシング情報の中で重要度の高い情報に自動で重み付けを行う、独自のマルチモーダル・アテンション法を用いて、機器が理解した内容に対し自然な言葉を用いて詳細に表現するような学習モデルを構築した。機器が理解したこれまでの状況や人の発話の履歴から自然な言葉を生成することで、人と機器との円滑な意思疎通を実現した。今回、従来の視覚情報のみの手法と比較したところ、CIDEr(※2)での評価が29%改善された。

他方、同技術の開発と同時に、同技術を活用して人と車載機器が周囲の物体や出来事について自然な言葉で共有できる経路案内システムを構築した。

従来の経路案内では「郵便ポスト」などは視野に入りやすいが、地図情報には含まれていないため「50m先を右に曲がってください」という画一的で直感的に理解しにくい説明だった。同技術ではカメラ画像を用いて「郵便ポストの手前で右に曲がってください」といった、ユーザーが認識する実際の状況に応じた経路案内を生成することが可能となった。

三菱電機、AIを活用して人と自然な言葉で意思疎通ができる「Scene-Aware Interaction技術」を開発
経路案内のイメージ図

さらに、周囲の車両や歩行者、自転車などの進行方向が自車の進行方向と交差し事故につながるおそれがある場合「歩行者が道を渡ろうとしています」など音声警告を生成することもできる。

三菱電機、AIを活用して人と自然な言葉で意思疎通ができる「Scene-Aware Interaction技術」を開発
警告のイメージ図

今後は、状況理解に基づき人間と言葉で意思疎通できる車載機器や人間の音声指示で動作するFA機器、共同作業者や遠隔地の監督者と口頭での意思疎通ができるロボット、家族が同居しているかのような生活管理や緊急対応のできる見守りサービス、周囲の状況を踏まえて具体的な行動を指示し、ソーシャルディスタンスの確保などに役立つ音声警告システム、公共エリアに設置された機器が利用者の状況と口頭指示に応じて反応するタッチレスシステムなどへの適用を目指す。

※1 End-to-End深層学習:入力から出力までさまざまな処理を行う複数のモジュールを複数の層から構成される一つの大きなニューラルネットワークに置き換えて行う学習。既存の個別のモジュールの組み合わせに対し、全体を最適化した学習を行うことで性能を向上させることが可能。
※2 CIDEr(Consensus-Based Image Description Evaluation):機器が理解した内容が、人間が理解した内容とどれだけ類似しているかを示す評価尺度。複数の人が作成した状況説明文の中から、より多くの人が用いた単語列を重要な要素とみなし、比較評価したものである。

Previous

NEC、画像解析を活用して鉄道の沿線検査業務を支援する「列車巡視支援システム」を実用化

経産省、物流MaaSの実現に向けたトラックデータ連携の仕組み確立に取り組む事業者等を選定

Next