株式会社エクサウィザーズは、画像の内容を基に、その状況を対話型で説明する生成AIモデル「exaBase Visual QA」を開発したことを発表した。
「exaBase Visual QA」を開発するにあたりエクサウィザーズは、人が画像を見た時にどこに注目するのかを、生成AIモデルに学習させることに取り組んだ。
その結果、人が直感的に認識可能な、画像内の危険性や違和感といった状況を解釈することが可能になった。「exaBase Visual QA」を実装したシステムとチャットボットのように対話することで、状況を説明する文章を生成することができる。
具体的には、トップ画のような画像に対して、「潜在的な危険性はありますか」と入力することで、「作業員がバランスを崩したり足場が崩れたりすると落下につながる。作業員は金属棒を接続するために電動工具を使用しており、工具が滑ると負傷する可能性がある。適切な安全予防措置を講じるべきである」といった文章を生成する。
システムの実装時には長文を出力するが、それらをChatGPTを用いて必要な部分にフォーカスした要約が可能だ。
なお、エクサウィザーズでの評価実験では、他の商用利用可能なモデルより最大で1割弱高い解釈の精度を持っていることが確認されている。
また、「exaBase Visual QA」は、オープンソースの生成AIモデルをベースに開発されており、エクサウィザーズが追加学習を実施しているため、すぐに利用することが可能だ。
さらに、個別の分野のデータを学習し、設定を調節する「ファインチューニング」をエクサウィザーズ側で行うことで、特定の分野での精度を向上させることもできる。
特に自然画像(人工的に生成した画像など以外)は高い精度で解釈することができ、解釈した意味内容に基づいてデータを振り分ける「分類モデル」としての利用も可能だ。
適用分野は、建設現場などでの作業における危険性の判定や、学校など多様な人の動きがある場所での状況把握、製品ラインなどでの合否を判定する分類モデルの構築などが挙げられている。
提供形態は、さまざまなソフトウェアやシステムに組み込んで活用することが想定されており、現時点でPoC(概念実証)用途での提供が可能だ。当初は静止画を対象とするが、動画での活用も可能だとしている。
無料メルマガ会員に登録しませんか?

IoTに関する様々な情報を取材し、皆様にお届けいたします。