NTT、人間に近い情報処理機構でマルチメディアを統合するメディア処理AI「MediaGnosis」を開発

音声音響・画像映像・自然言語といったマルチメディアは、音声認識・画像認識・機械翻訳といった独立に技術開発された上で構築されている。そのためこうした技術は様々な業界で注目される一方、現在では限定的な用途にとどまっており、さらなる技術の高度化が期待されている。

そこで日本電信電話株式会社（以下、「NTT」）は、マルチメディアを統合的に扱い、人間に近い情報処理機構を実現したメディア処理AI「MediaGnosis」を新たに開発した。

「MediaGnosis」では、「知識統合型アーキテクチャ」により、音声認識・画像認識・機械翻訳などの様々なAI機能（以下、各種メディア処理AI機能）を、1つのモデルに統合することで、効率的な「学習」と総合的な「推論」を行う。

つまり、音声認識の学習を行うことで画像認識や機械翻訳の性能改善につなげることが可能となったり、複数の機能を同時に駆動した「推論」を行うことができるのだ。

例えば、声質とその言葉の内容、表情を同時に考慮して、人の感情を推論する、といったことが可能となる。

NTT、人間に近い情報処理機構でマルチメディアを統合するメディア処理AI「MediaGnosis」を開発 — 知識統合型アーキテクチャの概略図。

具体的に「知識統合型アーキテクチャ」では、上図に示すように、入力モーダル（音声音響情報・画像映像情報・自然言語情報、など）、および出力対象（数値・ベクトル・ラベル・テキスト、など）の両者に対して、複数の機能間で同様の役割を持つ情報処理機構（理解部）を、複数の機能間で共通化する。

これにより、1つのモデルの中に様々なAI処理機能を統合することが可能となる。なお「MediaGnosis」には、各種メディア処理AI機能に関するNTTの最新の研究成果が内包されている。

また、「MediaGnosis」では、マルチメディアの情報処理を統合的に扱うことにより、メディア処理AI機能に基づく多様なアプリケーションを、1つのAIにより実現することが可能となる。

具体的には、個別のメディア処理AI機能や、ユースケースに応じて複数のメディア処理AI機能を組み合わることができ、マルチモーダル・マルチメディア間の相互の特徴を活用したアプリケーションを実現できる。

「MediaGnosis」を活用したアプリケーション例として、「コミュニケーション時の振る舞いから魅力となる個性を見つけ出すシステム」「複数人コミュニケーションをリアルタイムで可視化することでリモート会議の活性化・円滑化を狙うシステム」が挙げられており、2021年11月16日～19日に開催予定のNTT R&Dフォーラム2021にて紹介される。

「MediaGnosis」の一部の機能（知識集約型アーキテクチャ上でモーダル独立に処理する機能）は、実用化に向けた検討が進んでおり、2021年度中に商用展開予定だ。

その他の機能（複数モーダルを同時に処理する機能）については、実用に向けたフィージビリティの検証が進められており、2022年度中に商用展開予定だという。