富士通、人の歩き方の映像から人物を高精度に照合する技術を開発

AIを活用した映像解析により、顔や服装といった特徴が視認できないような映像でも、人の歩き方(以下、歩容)の特徴をもとに人物照合可能な技術は、照合時に使用するカメラに映る人のサイズや歩く位置などのデータが学習時と異なると、照合精度が低下してしまうという課題があった。

より多くの映像データをモデルに再学習させることでこの課題を改善することができるが、カメラ映像に映る人のサイズや、歩く位置などのすべての条件を網羅した再学習は困難であった。

そうした中、富士通株式会社は、顔などの情報が写っていない映像からでも歩容をもとに、人物を高精度に照合できる歩容照合技術を開発した。

この技術は、人の関節点の座標から姿勢を推定する汎用深層学習モデルと、汎用的に照合可能な空間への変換により人物を照合しやすくする富士通独自の技術を組み合わせることで、顔などの情報を必要とせずに人物を照合することが可能だ。

具体的には、事前に取得した人物映像から得られる歩容情報の登録時と、新たに用意した人物映像を入力する照合時の2段階で構成されている。

登録時には、人の行動を認識する富士通のAI技術「行動分析技術 Actlyzer(アクトライザー)」の姿勢推定技術を用いて、人の関節点の移動における時系列情報を抽出。得られた関節点の時系列情報は、人のサイズや歩く位置に関わらず、汎用的に照合可能な空間に投影して関節点情報を変換する。

変換された時系列の関節点情報から、カメラ映像内の人物特有の歩容の情報である歩容特徴量を抽出し、歩容特徴量データベースに登録する。

照合時には、新たに入力された人物映像に対して、汎用的に照合可能な空間に投影して変換された関節点情報から歩容特徴量を抽出。あらかじめ登録した人物映像の歩容特徴量と、新たに入力された人物映像の歩容特徴量との類似度を比較することで、人物を照合する。

富士通、人の歩き方の映像から人物を高精度に照合する技術を開発
開発された技術による人物照合のイメージ

また、この技術を開発するにあたり、富士通の事業所で約1,700人を対象に撮影したカメラ映像から作成した大規模データセットを、学習済みの汎用深層学習モデルを用いて照合した結果、これまでの技術では50%未満の精度であったのが、約90%の精度で人物を照合することができたのだという。

今後は、この技術を用いて、例えば迷子や高齢者の捜索の際に、過去に保護者や家族がスマートフォンなどで撮影した対象者の歩容が分かる映像をもとに、駅や空港、商業施設、公共機関など様々な場所に設置されたカメラ映像から歩容の類似度が高い人物をAIが高精度に特定するなど、従来は人手で行っていた映像の解析作業を効率化する場面での実証に取り組み、2023年度の実用化を目指すとしている。