画像認識技術の応用が進み、技術の展開先はこれまで利用されてこなかった場面にも広がりを見せている。いわゆる「画像認識を適用しやすい」現場に限らない応用が進むにつれ、従来のAIが苦手とする「多様な見え方をする同じ物体」への対処が求められている。
従来の深層学習の枠組みにおいては、AIモデルは基本的に見えが似たものが同じカテゴリに属するように学習していく。一方で、特に近年、分類性能を向上させるために、データの数と見えのバリエーションを著しく増加させて学習させることが一般的になっている。
これにより、撮影方向や、光の加減、背景の違いなどによって、全く異なる見え方をする物体であっても、同じ物体は同一カテゴリである、と判別することができるようになる。そのため、大量のデータが包含する多様な見えに惑わされず、対象の物体に共通する「本質的な特徴」をいかにうまく学習させるか、という点が着目されてきた。
一方、カテゴリ内の「見え」の分布は実は均一ではなく、同一カテゴリ内に「見えの傾向が連続的に異なる、より細かいカテゴリ」が複数存在する(多峰性分布)。例えば、図1の「鳥」カテゴリには「空を飛んでいる鳥」「草原の鳥」「木に留まっている鳥」「鳥の頭」のように、同じ「鳥」でも異なる傾向の画像群が存在し、それらの画像群それぞれが対象に関する豊かな情報を有している。ここで「本質的な特徴」にフォーカスしてしまうと、せっかく画像群が有していた多様な情報を捨て去ることになる。
パナソニック ホールディングス株式会社(以下、パナソニックHD)は、従来のAIが苦手とする「種類や撮影条件によって同一カテゴリ内の見た目が多様になる」場合にも、精度良く画像認識が可能なAI技術を開発した。
同手法の開発において、物体の多様な見え方に関する情報を積極的に活用することでAIが苦手とする「多峰性分布」を有する画像の認識能力を上げるアルゴリズムを開発した。具体的には、特徴の分布を連続的に捉えるため、従来1次元のベクトルのみが通常用いられてきた分類モデルの重みベクトルを、2次元の正規直交行列に拡張した。これにより、重み行列の各要素が画像のバリエーション(背景の色や、物体の向きなど)を表現できるようになった。
ベンチマークデータセットに対する実証実験の結果、同手法は図1に示すように「鳥」のような見えが非常に多様なカテゴリに含まれる画像特徴を連続的に捉えられる分類器を導入することで、同じ物体として分類すべき特徴量群の淵を特定できることを示した。星印が、同手法が捉えた「鳥」カテゴリの淵である。
シンプルなアルゴリズムのため、一般的な深層学習ベースの画像認識モデル(ResNet-50)に同アルゴリズムを追加した際のメモリ量増加は実用時の試算(10クラス)で0.1%程度であり、わずかなメモリ増加で認識精度と説明性の向上が期待できる。
従来法は見た目が近い別の乗り物を見付けてきた一方、提案法は見た目のバリエーションが豊かな形で乗り物の画像を見つけ出せている。
無料メルマガ会員に登録しませんか?

IoTに関する様々な情報を取材し、皆様にお届けいたします。