東芝、画像に対する質問に回答できる質問応答AIを開発

近年、労働災害による死亡者数は減少する一方で、休業4日以上の死傷者数は増加傾向にある。今後、人手不足の常態化が想定される中、生産現場の安全性の確保は喫緊の課題である。特にコロナ禍においては、労働者の安全確保と管理監督の省力化の両立が求められている。

最近では、現場支援を目的としたAIの導入が進んでおり、AIビジネスの国内市場は2025年には2020年度比約2倍の1兆9,357億円になると予測されている。例えば、現場のカメラ映像から「帽子を装着しているか」「作業場の通路に物が落ちていないか」などを確認する安全点検をAIでサポートすることにより、現場の安全確保に加え管理者の作業を省力化することができる。

従来の画像認識AIは、人、帽子、作業着など事前に学習した個々の物体を検出することはできるが、点検項目に合わせて何をもとに点検箇所の判定をするのか(判定機能)を作り込む必要があった。例えば「帽子を装着しているか」という点検項目では、人物の頭部に帽子が検出されたかどうかで判定する。

状況が変化する生産現場においては、点検項目の変更や追加にも即座に対応することが重要だが、従来のAIでは変更後の点検項目に合わせて判定機能を作り込む時間がかかるため、すぐに対応することは困難だった。

株式会社東芝は、汎用性があり、画像に対する質問に回答できる質問応答AIを開発した。

同AIは、画像に映る人物や物だけでなく背景を合わせて認識し、画像の特徴と質問文の特徴を横断的に処理して回答を導き出す。人物や物の有無だけでなく、それらの場所や状況など様々な情報を含んだ膨大な画像・質問・回答のセットを学習可能で、約3,000種類の回答の選択肢から、質問に応じて適切な回答を提示することができる。「画像+質問」という汎用的なフォーマットのため、点検項目の変更や追加の際にも、項目に合わせて質問文を用意するだけで柔軟に対応できる。

画像に対する質問応答AIは世界中で研究が進む最新技術で、画像および質問文から抽出した特徴を融合して回答を導き出す。従来手法は、主に画像内に映る人物や物の特徴を考慮して回答するが、東芝が今回開発した方式は、これらの人物や物が存在する床や通路などの背景や空間領域の特徴も抽出し、背景を合わせて認識することで、より画像内の物の状況を反映した回答が可能になる。
東芝、画像に対する質問に回答できる質問応答AIを開発
例えば、「物があるか」ということだけでなく「通路に物が置いてあるか」「人物が所定の位置に立っているか」などの安全モニタリングで重要となる質問に対応できる。

東芝、画像に対する質問に回答できる質問応答AIを開発
画像に対する質問応答結果の例
東芝、画像に対する質問に回答できる質問応答AIを開発
画像に対する質問応答結果の例

今回、東芝が実施した公開データセットを用いた性能評価において、従来手法の回答正解率は、画像とテキストの膨大なデータで事前に調整していない場合(以下、事前学習なし)の場合65.88%、事前に調整した場合(以下、事前学習あり)の場合74.00%であるのに対し、同AIの回答正解率は、事前学習なしの場合66.25%、事前学習ありの場合74.57%と、従来よりも高精度のAI回答正解率を達成した。

東芝、画像に対する質問に回答できる質問応答AIを開発
従来手法との精度比較

同AIを生産現場の安全モニタリングに適用することで、現場の安全性向上と監督者の作業省力化の両立、また働き方改革への貢献が期待できる。また、同AIは画像と質問から回答を推定する用途に汎用的に適用できるため、放送コンテンツからの特定シーンの検索、ドライブレコーダーや監視カメラ映像からの特定の状況や人物の検索、状況が類似した過去のヒヤリハット事例検索など、絞り込み条件に質問文を用いた画像検索への応用も期待できる。

今後東芝は、点検項目の仕様変更を柔軟に行える安全モニタリングシステムへの2023年度中の導入を目指す。