パナソニックHD、階層的な画像認識をするマルチモーダル基盤モデルを開発

パナソニックホールディングス株式会社（以下、パナソニックHD）は、大規模言語モデルの事前知識を活用することで、任意のテキスト入力に応じたセグメンテーション（画像中の物体を見つけ出し、画素単位で映っているものを識別すること）を遂行できる画像認識向けマルチモーダル基盤モデルを、カリフォルニア大学バークレー校と共同開発した。

近年、画像認識AIの構築にかかる時間やコストの削減を見込める手法として、大規模言語モデルを応用した研究が注目されている。

大規模言語モデルの事前知識を画像に取り込むにあたって、例えば人の顔から、鼻・口・目といったように、実際は異なる粒度の階層的な言語が同一の物体領域に存在する場合、基本的には、階層的な関係性は無視され、人・顔・鼻のどれか一つ、もしくは、「人顔鼻」と繋げただけの文字列で学習など、領域と言語が1対1で対応する形で扱われてきた。

そこでパナソニックHDは、これまで無視されてきた「階層的な関係性」がAIによる高度な画像理解に必要であることに着目し、異なる粒度の階層的な表現を学習する技術「HIPIE（Hierarchical Open-vocabulary Universal Image Segmentation）」を開発した。

さまざまなスケールを包括することで、トップ画が示すように、所望の画像分割と高度な画像理解ができるようになる。また、モデルの表現能力が格段に向上したことで、未知の組み合わせラベルに対応することも可能だ。

「HIPIE」の構成は、まず入力画像とテキストから画像特徴（MAE）とテキスト特徴（BERT）を抽出し、それぞれの対応関係を、Bi-Directional Cross-Attentionという双方向の関連度合いを学習できる手法で学習し、対応付けを行う（Text-Image Fusion）。

パナソニックHD、階層的な画像認識をするマルチモーダル基盤モデルを開発 — HIPIEの構成図（採択論文より引用）

ここで、物体領域は境界で囲まれたひとつながりの比較的小規模な領域となる一方、背景領域は画像全体に不規則な形状で広く分布する傾向にある。

しかし「HIPIE」では、画像特徴とテキスト特徴の特性を定量的に比較し、物体領域と背景領域を適切に分割することができる。

さらに、物体領域と背景領域を異なるデコーダで処理するという工夫を行うことで、より効果的な画像理解に繋げている。

なお、「HIPIE」は、セグメンテーションと物体検出、合わせて8種類のタスクを1つのモデルで実行できる技術であり、40以上の公開データセットを対象とした評価実験において、従来法を上回る結果を残したのだという。

「HIPIE」により、従来、階層に応じて複数のモデルを用意する必要があったセグメンテーションや画像認識を、一つのモデルで実現できるようになった。

なお「HIPIE」は、AI・機械学習技術のカンファレンスである「37th Conference on Neural Information Processing Systems（NeurIPS 2023）」に採択され、2023年12月10日から2023年12月16日に米国ニューオリンズで開催される本会議で発表される。