NTT、LLMによる視覚読解技術を開発し「tsuzumi」へ導入

企業:

文書には、テキストやアイコンや図表などの視覚要素が含まれており、こうした実世界の文書を読解し理解する技術の実現は、AI分野における課題の一つだ。

そこで日本電信電話株式会社(以下、NTT)は、大規模言語モデル(以下、LLM)によって文書を視覚情報も含めて理解する視覚読解技術を実現した。

この技術は、LLMの推論能力を活用し、視覚的に文書を理解するものだ。

今回の研究では、文書画像をLLMの表現に変換可能な新たなアダプタ技術の開発および、多様な視覚読解タスクを対象とした指示遂行データセットの構築を行った。

アダプタ技術の開発では、画像中の文字および位置(座標)、画像の特徴を定量的に表現した画像情報、指示テキストを同一空間上にマッピングし、LLMに繋ぐ。

NTT、LLMによる視覚読解技術を開発し「tsuzumi」へ導入
LLMの推論能力を活用した視覚読解技術の概要

上図で示すように、学習時には、モデルパラメータの大部分を占めるLLMや画像エンコーダのパラメータを固定にし、アダプタのみを学習対象にすることで、パラメータ効率の良い学習を実現している。

また、この技術のアダプタでは、入力シーケンスを出力シーケンスに変換または変更するTransformer構造を採用し、学習可能なトークンに対して、相互注意では画像特徴との関係性を捉え、自己注意では指示テキストや画像中の文字および位置情報との関係性を捉える。

これにより、文書画像のマルチモーダルな特徴をLLMにとって解釈しやすい情報として獲得することができる。

NTT、LLMによる視覚読解技術を開発し「tsuzumi」へ導入
文書画像をLLMに解釈できる形に変換を行うアダプタ技術の詳細図

一方、今回構築された指示遂行データセットでは、文書画像を知識源とし、質問応答、情報抽出、文書分類を始めとする12種類の視覚読解タスクを、人の指示を基に遂行する。

これらにより、LLMが文書の内容を視覚と言語を融合して理解し、任意のタスクを追加学習なしで遂行することが可能となった。

利用シーンとしては、文書を検索・スクリーニングを行う業務や、専門文献の読書補助など、オフィス作業や日常生活における人の認知が必要なシーンが挙げられている。

なお、この成果は、NTT版大規模言語モデル「tsuzumi」のアダプタ技術として採用・導入されているほか、LLMベースの視覚文書読解に関する具体的な方法論を示した論文として、2024年2月20日~2月27日にカナダ・バンクーバーで開催されたAI分野の国際会議「The 38th Annual AAAI Conference on Artificial Intelligence」において発表された。

今後NTTはこの技術を、視覚表現された文書を基に質問応答を行う技術やWeb検索など、産業上重要なサービスの発展に活用していくとしている。

無料メルマガ会員に登録しませんか?

膨大な記事を効率よくチェック!

IoTNEWSは、毎日10-20本の新着ニュースを公開しております。 また、デジタル社会に必要な視点を養う、DIGITIDEという特集コンテンツも毎日投稿しております。

そこで、週一回配信される、無料のメールマガジン会員になっていただくと、記事一覧やオリジナルコンテンツの情報が取得可能となります。

  • DXに関する最新ニュース
  • 曜日代わりのデジタル社会の潮流を知る『DIGITIDE』
  • 実践を重要視する方に聞く、インタビュー記事
  • 業務改革に必要なDX手法などDXノウハウ

など、多岐にわたるテーマが配信されております。

また、無料メルマガ会員になると、会員限定のコンテンツも読むことができます。

無料メールから、気になるテーマの記事だけをピックアップして読んでいただけます。 ぜひ、無料のメールマガジンを購読して、貴社の取り組みに役立ててください。

無料メルマガ会員登録