企業では、これまで新たな実験や研究などを行う際に紙で保管してある過去文書から類似・重複・引用・参考にできる内容が無いか、更改時に整合性が合うかなど、ナレッジの確認に向け、書庫やファイルサーバに保管している文書ファイルから捜索する作業が発生していた。
そこでTIS株式会社では、手書きや活字に関わらず画像データでしか残っていない資料をテキストデータ化し、検索・データ活用を可能にする、TISのPaperoidの「ドキュメントAI-OCRサービス」を活用して画像・文字のテキスト化を行ってきたが、大量に書庫に眠っている紙帳票のスキャン作業には膨大な工数がかかるとの意見があった。
このほどTISは、仕様書・研究論文・設備点検報告書などの紙文書をデジタル化し、企業資産の有効活用につなげる「文書アーカイブDXサービス」の提供を開始する。
同サービスは、過去の仕様書・研究論文・設備点検報告書などを紙で活用している企業向けに、紙のデジタル化からAI OCRで記載されている画像・文字をテキスト化するサービスである。アーカイブ文書として紙で保存・保管している資産をデジタル化することで、今まで文書捜索に要していた時間の短縮と、過去に実施した研究結果の活用や重複研究の防止、情報共有による技術伝承などに役立てることができる。
また同サービスは、TISグループが提供する紙文書のスキャニングプロセスをアウトソーシングできる文書スキャンBPOを使ってアウトソーシングし、ドキュメントAI-OCRサービスでシームレスに文書画像のテキスト化を図ることで、企業資産として活用するのに時間を要していた文書画像などのアーカイブデータを効率的にデジタル化し、業務での有効活用が可能になる。
さらに、読取箇所の定義をAIが自動で認識するためOCR化する文字の範囲を手動で指定する必要がなく、対象の原本PDFに含まれる文字をすべてテキストデータ化することが可能であるほか、Paperoid上だけでなく、読み取った文書画像データを出力するとPDFに透明テキストとして埋め込まれるため、ファイル自体から直接キーワード検索することができる。
TISは今後、紙文書のデジタル化だけでなく、NLP(自然言語思慮)と組み合わせて項目や文章が異なる類義語を同様の趣旨として理解させて抽出したり、テキスト解析による要約化や文章構造を理解して原因分析に使うなど、企業の用途に合わせた高度な文書活用を提供していくとした。
無料メルマガ会員に登録しませんか?

IoTに関する様々な情報を取材し、皆様にお届けいたします。