内田洋行ビジネスITフェア2024

パナソニックHD、階層的な画像認識をするマルチモーダル基盤モデルを開発

パナソニック ホールディングス株式会社(以下、パナソニックHD)は、大規模言語モデルの事前知識を活用することで、任意のテキスト入力に応じたセグメンテーション(画像中の物体を見つけ出し、画素単位で映っているものを識別すること)を遂行できる画像認識向けマルチモーダル基盤モデルを、カリフォルニア大学バークレー校と共同開発した。

近年、画像認識AIの構築にかかる時間やコストの削減を見込める手法として、大規模言語モデルを応用した研究が注目されている。

大規模言語モデルの事前知識を画像に取り込むにあたって、例えば人の顔から、鼻・口・目といったように、実際は異なる粒度の階層的な言語が同一の物体領域に存在する場合、基本的には、階層的な関係性は無視され、人・顔・鼻のどれか一つ、もしくは、「人 顔 鼻」と繋げただけの文字列で学習など、領域と言語が1対1で対応する形で扱われてきた。

そこでパナソニックHDは、これまで無視されてきた「階層的な関係性」がAIによる高度な画像理解に必要であることに着目し、異なる粒度の階層的な表現を学習する技術「HIPIE(Hierarchical Open-vocabulary Universal Image Segmentation)」を開発した。

さまざまなスケールを包括することで、トップ画が示すように、所望の画像分割と高度な画像理解ができるようになる。また、モデルの表現能力が格段に向上したことで、未知の組み合わせラベルに対応することも可能だ。

「HIPIE」の構成は、まず入力画像とテキストから画像特徴(MAE)とテキスト特徴(BERT)を抽出し、それぞれの対応関係を、Bi-Directional Cross-Attentionという双方向の関連度合いを学習できる手法で学習し、対応付けを行う(Text-Image Fusion)。

パナソニックHD、階層的な画像認識をするマルチモーダル基盤モデルを開発
HIPIEの構成図(採択論文より引用)

ここで、物体領域は境界で囲まれたひとつながりの比較的小規模な領域となる一方、背景領域は画像全体に不規則な形状で広く分布する傾向にある。

しかし「HIPIE」では、画像特徴とテキスト特徴の特性を定量的に比較し、物体領域と背景領域を適切に分割することができる。

さらに、物体領域と背景領域を異なるデコーダで処理するという工夫を行うことで、より効果的な画像理解に繋げている。

なお、「HIPIE」は、セグメンテーションと物体検出、合わせて8種類のタスクを1つのモデルで実行できる技術であり、40以上の公開データセットを対象とした評価実験において、従来法を上回る結果を残したのだという。

パナソニックHD、階層的な画像認識をするマルチモーダル基盤モデルを開発
「HIPIE」と従来法としてSAM、SEEM、ODICEといった代表的なセグメンテーションモデルが対応できるタスクを比較した表

「HIPIE」により、従来、階層に応じて複数のモデルを用意する必要があったセグメンテーションや画像認識を、一つのモデルで実現できるようになった。

なお「HIPIE」は、AI・機械学習技術のカンファレンスである「37th Conference on Neural Information Processing Systems(NeurIPS 2023)」に採択され、2023年12月10日から2023年12月16日に米国ニューオリンズで開催される本会議で発表される。

無料メルマガ会員に登録しませんか?

膨大な記事を効率よくチェック!

IoTNEWSは、毎日10-20本の新着ニュースを公開しております。 また、デジタル社会に必要な視点を養う、DIGITIDEという特集コンテンツも毎日投稿しております。

そこで、週一回配信される、無料のメールマガジン会員になっていただくと、記事一覧やオリジナルコンテンツの情報が取得可能となります。

  • DXに関する最新ニュース
  • 曜日代わりのデジタル社会の潮流を知る『DIGITIDE』
  • 実践を重要視する方に聞く、インタビュー記事
  • 業務改革に必要なDX手法などDXノウハウ

など、多岐にわたるテーマが配信されております。

また、無料メルマガ会員になると、会員限定のコンテンツも読むことができます。

無料メールから、気になるテーマの記事だけをピックアップして読んでいただけます。 ぜひ、無料のメールマガジンを購読して、貴社の取り組みに役立ててください。

無料メルマガ会員登録