動画の内容を理解し、それに対する質問に答えるためには、時間の経過と共に変化する動画の中から重要な行動やその目的を認識・判断し、同時に言語で表現された質問文と回答文を解釈することが必要だ。
こうした中、パナソニック コネクト株式会社は、画像認識の学会、CVPR2024のコンペ「Ego4D EgoSchemaChallenge」にて、3分間の動画を見て、「映像の中の人物の行動から、人物が何をしようとしているのかを推測してください」等の質問に対する最適な回答を5つの選択肢から選んで、AI認識技術で回答するタスクに取り組み、開発した生成AIマルチエージェントシステムにより正解率71%を達成し、世界で2位の評価を獲得した。
今回パナソニック コネクトは、コンペに臨むに当たり、適切な回答を生成する大規模言語モデルを活用し、AIマルチエージェントにディベートさせることで回答の精度を高める方法や、AIエージェントが複数の役割をこなすマルチペルソナアプローチの研究を行った。
そして、これらの研究を基に、動画を分析して自動生成した複数エージェントに基づく「VideoQAシステム」を新たに開発した。
「VideoQAシステム」は、問題に合わせてどの分野の専門家に尋ねればいいかをAIが考え、その専門家AIを動的に生成して問題を解決するアプローチを採っている。AIが質問文と動画を分析し、質問に回答するのに適した複数の専門家と各専門家のための指示プロンプトの生成を行う。
そして、各専門家役のエージェントAIが動画の内容を分析し、質問文プロンプトに回答する。最後に、監督役が各専門家のエージェントAIの回答を踏まえ、5択の中から最もふさわしい1つの回答を選択する。この手法により、人が回答した場合の正解率76%に近い正解率を達成した。

これまでの画像認識技術は、その場その時の事象を把握することに限られていたが、AIマルチエージェントシステムの開発を通じて、長い動画の内容を過去からの経緯を理解して推測、判断することが可能になった。
パナソニック コネクトは、「なぜ人がそこにいるのか、何を持っているのか、何をしようとしているのかを把握することで、人が次に取るべき行動の推奨や、過去から今に至るまでの一連の行動の中から修正や改善が望まれる行動の抽出に活用できるようになる」としている。
例えば、工場のものづくりの工程の中で非効率な作業を把握し、工程の見直しが可能となるため、製造の現場の改善につながるというようなユースケースが想定されている。
今後は、パナソニック コネクトが事業領域として注力しているサプライチェーンの領域、製造、物流、流通の現場でのAIマルチエージェントシステムの活用を視野に、さらなる開発に取り組む予定だ。
無料メルマガ会員に登録しませんか?

IoTに関する様々な情報を取材し、皆様にお届けいたします。