富士通株式会社は、製造や物流などの現場に設置されたカメラ映像を空間認識して解析するとともに、作業指示や規則などのドキュメント情報を参照することで、自律的に現場改善の提案や作業レポートの作成を行う映像解析型AIエージェントを開発した。
開発したAIエージェントでは、マルチモーダル大規模言語モデル(以下、マルチモーダルLLM)をベースとし、安全規則などのドキュメント情報をもとに、現場の3次元空間を映像認識する能力を獲得する自己学習技術を搭載している。
この技術では、マルチモーダルLLMが映像から認識できない事象について、ドキュメントの言語情報を対応付けて学習し、AIエージェントの映像理解能力を拡張することができる。
例えば、ドキュメントに含まれる対象物を選択し、機械学習により対象物との距離を推定して3次元データを仮想空間上に作成。次に、ドキュメントから作成した質問と、3次元データからわかる回答を作成し、それらを学習データとしてマルチモーダルLLMをファインチューニングすることで、人と物との空間的関係性の理解能力を拡張することができる。。
この技術を用いて、人と物体の距離を3次元で推定することで、物流や建設の現場における安全管理や、製造現場における作業状況の生産管理システムへの自動入力などを実現することができる。
さらに、空間理解能力に加え、現場固有の物体認識、人の個別作業の認識など、現場作業支援に必要な様々な能力をAIエージェントに追加できる。
また、ドキュメントのコンテキストが示す対象部分を映像から選択し記憶することにより、長時間の映像を解析することを可能にしたコンテキスト記憶技術も搭載されている。
マルチモーダルLLMでは、サイズの大きい長時間の映像を入力する際にフレームを間引くため、時系列で変化のある映像を分析する際に、回答の精度が落ちるという問題があった。
この問題を解決するために、重要な情報に注意を集中することで効率的に視覚情報を処理する、人間の「選択的注意」というメカニズムに着目した。
コンテキスト記憶技術では、対象映像の中で、AIエージェントのタスクで検知したい「人の安全行動」などの主題をプロンプトとして与えると、「選択的注意」により、主題に適合するフレーム内の特徴量のみを選択し、圧縮して映像コンテキストメモリとしてビデオメモリに格納する。
映像コンテキストメモリを用いることで、フレームを間引くことなく長時間映像をマルチモーダルLLMが扱えるようになる。
なお、2時間以上の映像を含む長時間映像に対する質問回答のベンチマークを行った結果、開発方式は従来のマルチモーダルLLM向けの映像圧縮技術と比較して、最小の記憶容量で回答精度を達成したのだという。
今後富士通は、開発したAIエージェントを用いて2025年1月より社内実践を行うとともに、2024年度中に映像解析型AIエージェントのトライアル環境の提供を開始するという。また今後、店舗、交通、公共安全などの様々な分野への技術展開も進めてくとしている。
さらに、AIエージェントの性能評価を目的に、工場や倉庫の現場映像を含むAIエージェントの評価環境「FieldWorkArena(フィールドワークアリーナ)」を、米国のカーネギーメロン大学の監修のもと開発した。「FieldWorkArena」は、2024年12月よりGitHubおよびFujitsu Research Portalにおいて公開される予定だ。
無料メルマガ会員に登録しませんか?
IoTに関する様々な情報を取材し、皆様にお届けいたします。