OpenAIは、2023年9月25日に画像解析ができる新機能「GPT-4V」の導入を発表し、ネット上では「ChatGPTに目ができた」と話題になっている。
「GPT-4V」はその他にも、テキストや画像、音声といった、種類の異なる複数の情報を総合的に処理できるマルチモーダルAIだ。
これまでChatGPT特集では、ChatGPTを使った企画やアイディア出しや、ビジネスに使えそうなデフォルトの機能を実際に使ってみた感想を紹介してきた。
以前の記事はこちら
第一弾:「今さら聞けない、ChatGPTを使った企画やアイディア出しの方法」
第二弾:「ChatGPTの知っておくと便利な機能「Custom instructions」とは何か」
今回は、「GPT-4V」の画像解析の精度が、ビジネスシーンで活用できるかどうかを検証する。
補足情報も追加された回答を生成
まずは、IoTNEWSの「メタバース、VR・ARの基礎と活用事例」という記事の中に掲載されている、VRの技術的な仕組みに関する図を説明してもらった。
この図をよく理解できないという前提の元、「図をわかりやすく説明してください。」というプロンプト(指示文)にし、あえて図の説明をせずに聞いてみた。
その結果、何の説明をしていないにもかかわらず、「この図は、VR(仮想現実)のコンテンツ制作と再生の流れを示しているようです。」と、正しい情報を提示してくれた。
その後も、「360°カメラ/CG」や「VR用の映像」など、図に表示されている文字を認識しながら、その役割を説明してくれている。
カメラの説明には、「ユーザーの動きや環境をキャッチするためのカメラ。これにより、VRコンテンツがユーザーの動きに応じて適切に反応します。」と、もともと図に表記されている絵や文字以上の自然な説明がなされており、図を読み解くための補助になると感じた。
しかし、「照明」「オーバーレイ」「ステレオサウンド」といった、図には表記されていない説明もされていた。
そこで、「図には表記されていない」と指摘すると、「ミスである」という回答が返ってきた。
VRの技術的な仕組みの内容としては、「照明」「オーバーレイ」「ステレオサウンド」があったとしても間違っていないので、情報ソースを聞いてみた。
すると、「過去のテキストデータや関連する情報から引き出されたもの」だとし、特定の情報ソースを参照しているわけではないとしている。
つまり、図から読み取った内容に関連するテキストデータや関連する情報を加味して内容を抽出してくれており、内容を理解する上ではこれらの情報も役に立つと感じる。
一方、間違った関連情報を引き出してしまう可能性もあるという前提は忘れない方が良いだろう。
グラフから将来の動向まで推察
次に、同記事内の、xRの市場動向として、IDCが発表したARとVRヘッドセット市場シェアのグラフを提示し、グラフから読み取れることを聞いてみた。
すると、全体的な成長率や特に成長している年、技術的進展の可能性など、様々な視点でグラフを読み解いてくれた。内容に関しても、今回は間違いがなさそうだ。
グラフの内容を参考にして資料を作る際などに、新たな視点を得ることができると感じた。
マルチモーダルAIの利点
次に、同記事内の、ARを活用した作業支援を受けているイメージ写真の説明を頼んでみた。
すると、タブレットの中のAR表記をしっかりと読み解き、「この写真は、人がタブレットデバイスを使用して、機械や設備の部分に拡張現実(AR: Augmented Reality)の情報をオーバーレイして表示している場面を捉えています。」と、状況を説明してくれた。
さらに、利用用途として「工場や施設でのメンテナンス作業」という具体例を出してくれたので、工場や施設以外での利用用途についても聞いてみた。
すると、様々な利用用途を提示してくれた。これは、これまでのChatGPTでもできたことだが、画像を読み解いてくれた後に、疑問に思ったことをさらに深掘りできるのは、マルチモーダルAIの利点だと感じた。
高い画像解析精度
今回、「GPT-4V」を活用して、図やグラフ、写真を読み解いてもらったが、高い精度で内容を抽出してくれていると感じた。
「GPT-4V」はその他にも、手書きや写真といったウェブサイトのイメージからHTMLコードを生成してくれたり、スマートフォンでは音声を聞き取りその回答を音声出力してくれたりといったことが可能だ。
今後もその他の利用用途や、新たなアップデートについて紹介していきたいと思う。
無料メルマガ会員に登録しませんか?
現在、デジタルをビジネスに取り込むことで生まれる価値について研究中。IoTに関する様々な情報を取材し、皆様にお届けいたします。