パナソニック コネクト、視覚と言語情報を同時に扱えるAIマルチエージェントシステムを開発

動画の内容を理解し、それに対する質問に答えるためには、時間の経過と共に変化する動画の中から重要な行動やその目的を認識・判断し、同時に言語で表現された質問文と回答文を解釈することが必要だ。

こうした中、パナソニック コネクト株式会社は、画像認識の学会、CVPR2024のコンペ「Ego4D EgoSchemaChallenge」にて、3分間の動画を見て、「映像の中の人物の行動から、人物が何をしようとしているのかを推測してください」等の質問に対する最適な回答を5つの選択肢から選んで、AI認識技術で回答するタスクに取り組み、開発した生成AIマルチエージェントシステムにより正解率71%を達成し、世界で2位の評価を獲得した。

今回パナソニック コネクトは、コンペに臨むに当たり、適切な回答を生成する大規模言語モデルを活用し、AIマルチエージェントにディベートさせることで回答の精度を高める方法や、AIエージェントが複数の役割をこなすマルチペルソナアプローチの研究を行った。

そして、これらの研究を基に、動画を分析して自動生成した複数エージェントに基づく「VideoQAシステム」を新たに開発した。

「VideoQAシステム」は、問題に合わせてどの分野の専門家に尋ねればいいかをAIが考え、その専門家AIを動的に生成して問題を解決するアプローチを採っている。AIが質問文と動画を分析し、質問に回答するのに適した複数の専門家と各専門家のための指示プロンプトの生成を行う。

そして、各専門家役のエージェントAIが動画の内容を分析し、質問文プロンプトに回答する。最後に、監督役が各専門家のエージェントAIの回答を踏まえ、5択の中から最もふさわしい1つの回答を選択する。この手法により、人が回答した場合の正解率76%に近い正解率を達成した。

パナソニック コネクト、視覚と言語情報を同時に扱えるAIマルチエージェントシステムを開発
3分間の動画の時系列のスクリーンショットと質問と回答例

これまでの画像認識技術は、その場その時の事象を把握することに限られていたが、AIマルチエージェントシステムの開発を通じて、長い動画の内容を過去からの経緯を理解して推測、判断することが可能になった。

パナソニック コネクトは、「なぜ人がそこにいるのか、何を持っているのか、何をしようとしているのかを把握することで、人が次に取るべき行動の推奨や、過去から今に至るまでの一連の行動の中から修正や改善が望まれる行動の抽出に活用できるようになる」としている。

例えば、工場のものづくりの工程の中で非効率な作業を把握し、工程の見直しが可能となるため、製造の現場の改善につながるというようなユースケースが想定されている。

今後は、パナソニック コネクトが事業領域として注力しているサプライチェーンの領域、製造、物流、流通の現場でのAIマルチエージェントシステムの活用を視野に、さらなる開発に取り組む予定だ。

無料メルマガ会員に登録しませんか?

膨大な記事を効率よくチェック!

IoTNEWSは、毎日10-20本の新着ニュースを公開しております。 また、デジタル社会に必要な視点を養う、DIGITIDEという特集コンテンツも毎日投稿しております。

そこで、週一回配信される、無料のメールマガジン会員になっていただくと、記事一覧やオリジナルコンテンツの情報が取得可能となります。

  • DXに関する最新ニュース
  • 曜日代わりのデジタル社会の潮流を知る『DIGITIDE』
  • 実践を重要視する方に聞く、インタビュー記事
  • 業務改革に必要なDX手法などDXノウハウ

など、多岐にわたるテーマが配信されております。

また、無料メルマガ会員になると、会員限定のコンテンツも読むことができます。

無料メールから、気になるテーマの記事だけをピックアップして読んでいただけます。 ぜひ、無料のメールマガジンを購読して、貴社の取り組みに役立ててください。

無料メルマガ会員登録