熊本大学とTOPPAN、くずし字AI-OCRで古文書の大規模調査する独自手法を開発

古文書は、日本国内に数十億点以上残存すると言われているが、そのなかには現代の社会課題にも直結する災害や地域文化の記録など、防災や観光資源の創出・地域の活性化にもつながる情報が記されているものがある。しかし、古文書のほとんどは「くずし字」で書かれているため、現代人にとって判読が困難なのが実情だ。

こうした中、国立大学法人 熊本大学とTOPPAN株式会社は、熊本大学が公益財団法人永青文庫から寄託を受けている歴史資料「細川家文書(ほそかわけもんじょ)」のうち、専門家でも解読が困難な、難易度の高いくずし字で書かれた約5万枚の未解読の古文書(藩政記録)を、AI-OCRを用いて短期間で解読し、約950万文字のテキストデータを生成することに成功した。

さらに、くずし字資料の解読システムと連動するキーワード検索システムを構築することにより、江戸時代前期の細川藩領国(小倉領40万石から熊本領54万石)の、約90年間での社会的事件や統治制度の変容を示す記述を含んだ資料を、即時に検索収集できるようになった。

今回解読した古文書は、「細川家文書」のうち、細川家奉行所の執務記録である「奉行所日帳(ぶぎょうしょにっちょう)」、藩主細川忠利の口頭での命令を日次に記録した「奉書(ほうしょ)」、参勤中の細川藩主が国元の家老・奉行衆に発した書状の控えである「御国御書案文(おくにごしょあんもん)」、小倉・熊本の惣奉行衆から各業務を担当する奉行たちへ発せられた指示書類の控えである「方々(かたがた)への状控(じょうひかえ)」など、合計約5万枚だ。

熊本大学とTOPPAN、くずし字AI-OCRで古文書の大規模調査する独自手法を開発
左から、「奉行所日帳」「奉書」「御国御書案文」「方々への状控」

この約5万枚・約950万文字を全文テキスト化し、大規模な古文書解読のためのシステム構築を行うとともに、地域における災害記録をはじめとした網羅的な調査を開始した。

熊本大学とTOPPAN、くずし字AI-OCRで古文書の大規模調査する独自手法を開発
くずし字文献資料の大規模調査のフロー図

くずし字AI-OCRによる解読と検索システムが一体になることによって、これまでくずし字の解読が障壁となっていた古文書などの一次史料への網羅的調査が容易になる。

そして、くずし字AI-OCRにより作成したテキストデータに対して、今回「地震、大雨、洪水、虫、飢、疫」などの災害に関連するキーワードで検索・調査を実施したところ、300件以上の記述を発見した。その中には、知られざる自然災害、疫病流行や飢饉など、歴史学・地域防災研究において重要な資料も含まれている。

また、それらの中には、いままでよく知られていなかった17世紀後期の気象災害に起因する大規模な飢饉と疫病の蔓延を物語る熊本藩奉行所の執務記録の記述など、未知の重要な記述が含まれることが確認され、熊本における地域防災などに今後活用するための研究を進めていく計画だ。

熊本大学とTOPPAN、くずし字AI-OCRで古文書の大規模調査する独自手法を開発
「奉行所日帳」に含まれる「洪水」の記述67 件の中から正徳2年(1712年)旧暦6月10日の洪水で、熊本町の「長六橋」が流された記録を発見

今後、熊本大学とTOPPANは、「細川家文書」の解読と分析を進め、新しく発見された災害関連の記録を活用することで、現代における防災意識の醸成、防災計画の策定等にも活用を目指すとしている。

無料メルマガ会員に登録しませんか?

膨大な記事を効率よくチェック!

IoTNEWSは、毎日10-20本の新着ニュースを公開しております。 また、デジタル社会に必要な視点を養う、DIGITIDEという特集コンテンツも毎日投稿しております。

そこで、週一回配信される、無料のメールマガジン会員になっていただくと、記事一覧やオリジナルコンテンツの情報が取得可能となります。

  • DXに関する最新ニュース
  • 曜日代わりのデジタル社会の潮流を知る『DIGITIDE』
  • 実践を重要視する方に聞く、インタビュー記事
  • 業務改革に必要なDX手法などDXノウハウ

など、多岐にわたるテーマが配信されております。

また、無料メルマガ会員になると、会員限定のコンテンツも読むことができます。

無料メールから、気になるテーマの記事だけをピックアップして読んでいただけます。 ぜひ、無料のメールマガジンを購読して、貴社の取り組みに役立ててください。

無料メルマガ会員登録