生成AIの回答精度が低い場合、解決策の一つとして、外部から正しい知識・情報・データを与えることが有効とされている。
日本政府は、生成AIの利用ルール等を議論する「AI戦略会議」で、政府保有のデータを開発者に提供する方針を決めているが、その多くはPDF形式であり、生成AIが効果的に学習・参照できるような構造に情報を整形する必要がある。
こうした中、大日本印刷株式会社(以下、DNP)は、PDFやWord等の多様なドキュメントを、生成AIの学習に適したデータ形式に整形する技術を開発した。
この技術は、DNP独自の「P&I(印刷と情報)」を掛け合わせ、企業や団体等の申込受付やコンタクトセンタ等の幅広い業務を代行するBPO事業や、各種情報加工、文字・画像処理等の技術・ノウハウを活かして開発されている。
具体的には、テキスト・画像・表組等が混在したドキュメントから、独自のAIモデルを使い、タイトルや本文、画像や表の内容・キャプションなどの要素ごとにコンテンツを分割し、生成AIが学習・参照しやすいデータ形式に整形する。なおデータ整形は、人手をほぼ介さずに機械処理で行うため、大量の文書も高速に処理することが可能だ。
より複雑で異なるレイアウトやドキュメントに対応するためには、ドキュメントの構造を認識する継続したAIモデルの拡充が重要だ。
そこでDNPが開発したAIモデルでは、一般的なディープラーニング(深層学習)のモデルで数百~数千ページのデータ学習が必要となるところを、数十ページのデータ学習で生成AI向けのデータを整形することができる。
この技術で整形したデータを生成AIが学習・参照することで、誤回答や非回答の件数を減らし、高い精度での回答を実現する。
なおDNPは、2023年5月に生成AIを活用できる社内環境を構築しており、今回、この技術を用いて、社内規定、品質マニュアル、決算短信などのドキュメントのデータを整形し、生成AIに学習・参照させて実証実験を行った。その結果、整形したデータを用いた生成AIは、従来の生成AIと比較して、誤回答を約90%削減することができたのだという。
この技術を活用した生成AIは、膨大なマニュアルやドキュメントを参照して業務を行う、審査やコンタクトセンターの問い合わせ対応において活用が期待されている。
今後DNPは、生成AIの導入や活用、生成AIに必要な学習データの加工・収集に課題を持つ企業・団体に向けて、2024年1月にこの技術を提供する予定だ。
また、契約書・帳票類・業務マニュアル等、膨大なドキュメントを取り扱う自治体や金融機関に、生成AIを活用して業務のDXにつなげるサービスを開発していくとしている。
無料メルマガ会員に登録しませんか?
IoTに関する様々な情報を取材し、皆様にお届けいたします。