日立、ダークデータ分析エンジンを活用してデータの抽出作業を自動化するAIソリューションを提供開始

昨今、IoTの進展により、社会や企業活動から生み出されるデータ量が加速度的に増え続ける中、組織の持つデータのうち、その多くが活用されないまま眠るダークデータ(※)であると言われている。日々蓄積されるデータを、意味のある情報として整理し分析することで新しい価値の創出につなげることが、今後のビジネス拡大に重要となっている。

こうした中、近年、ドキュメントデータについては、AIを活用したOCR技術の進化により、フォーマットが定型または準定型の帳票について高精度な読み取りや情報抽出が可能となってきた。一方で、請求書や診療明細書、有価証券報告書など非定型ドキュメントは、発行元ごとに表記や様式が異なるため、読み取り・抽出の自動化が困難なケースが多く、課題となっている。

株式会社日立製作所(以下、日立)は、日立が参画する米国スタンフォード大学の企業参画プログラムで開発されたAIを中核としたダークデータ分析エンジンを活用し、発行元によって様式や表記が異なる非定型ドキュメントの利活用において、取得したいデータの抽出作業を自動化・高度化する「データ抽出ソリューション」を開発し、販売を開始した。

同ソリューションは、表やページ情報などドキュメント内のさまざまな視覚情報を特徴として捉え、文書を解析する「情報表現構造解析技術」により、対応が難しかった非定型ドキュメントのデータ抽出を可能にする。

たとえば、請求書や診療明細書の日付の表記が「発行日」と「診察日」など、発行元によって異なる用語が使われている場合でも、文書の構造から同じ意味をさす単語として認識できるほか、抽出対象が複数ページにまたがるドキュメントでも、対象となる項目を抽出することができる。また、一つの区分に対し複数の項目が紐づく1:Nの関係も正しく認識するため、複雑な表のデータ抽出にも適している。

これにより、人手でかかる抽出後のデータ処理時間を削減し、得られたデータを迅速に業務改革に活用するなど、より高度な業務にリソースを充てることができる。

日立、ダークデータ分析エンジンを活用してデータの抽出作業を自動化するAIソリューションを提供開始
診療明細書を使ったデータ抽出のイメージ
また、従来のAI技術は、モデル構築にあたって大量の学習データを準備し、人手でデータの指定作業(ラベリング)を行うことが一般的であるため、モデルの構築や精度の維持・運用に多大なコストと時間を要していた。

同ソリューションでは、少ない学習データでAIモデルを生成できる「弱教師学習技術」により、データのラベリング作業を自動化するため、モデル構築のための期間短縮やコスト削減が可能となるほか、追加学習や再学習といったモデルの継続的な改善にも柔軟に対応できるとしている。用意する学習用データを削減できることで作業負荷を軽減するため、導入時だけでなく法改正や商品改定時にも対応でき、運用の効率化に寄与する。

さらに、日立の専門エンジニアが業務で扱うドキュメントに適したモデルの構築を行うなど、業務内容に応じた最適な導入・運用のコンサルティングを行う。加えて、他システムとのシームレスなデータ連携を可能にするAPIにより、既存のOCRシステムや業務システムとの連携を効率化する。

同ソリューションにより、企業内で蓄積する膨大なデータの中から効率的に価値あるデータを見つけ出し、生産性向上や販売力強化、コスト削減といった企業に内在するさまざまな経営課題の解決に向けて迅速なデータ利活用を支援する。

※ ダークデータ:企業内で日々収集・蓄積されていくデータのうち、活用されていないデータ、または活用されているものの手間がかかり活用効率が悪いデータ。

無料メルマガ会員に登録しませんか?

膨大な記事を効率よくチェック!

IoTNEWSは、毎日10-20本の新着ニュースを公開しております。 また、デジタル社会に必要な視点を養う、DIGITIDEという特集コンテンツも毎日投稿しております。

そこで、週一回配信される、無料のメールマガジン会員になっていただくと、記事一覧やオリジナルコンテンツの情報が取得可能となります。

  • DXに関する最新ニュース
  • 曜日代わりのデジタル社会の潮流を知る『DIGITIDE』
  • 実践を重要視する方に聞く、インタビュー記事
  • 業務改革に必要なDX手法などDXノウハウ

など、多岐にわたるテーマが配信されております。

また、無料メルマガ会員になると、会員限定のコンテンツも読むことができます。

無料メールから、気になるテーマの記事だけをピックアップして読んでいただけます。 ぜひ、無料のメールマガジンを購読して、貴社の取り組みに役立ててください。

無料メルマガ会員登録