富士通研究開発中心、教師データ数を削減できる深層学習技術を開発

富士通研究開発中心有限公司(以下、FRDC)は、中国古文書文字の高精度な文字認識に用いる深層学習技術において、少ない数の学習データでも高精度な文字認識を実現できる技術を開発した。

中国には5000万冊以上の古文書が所蔵され、次世代への伝承や研究への活用が期待されている。しかし、これらの文化遺産は、時間の経過や閲覧などにより劣化や破損が進んでいる。

古文書を保管している各図書館において、古文書を電子画像として保存する作業が進められているが、保全目的だけでなく、古文書のデータをICT技術で利活用していくためには、電子画像中の文字をテキストデータ化する必要がある。現在、この作業はごく一部の古文書について専門家が手作業で行っており、すべての古文書を電子化するためには多大な時間とコストが必要となっている。

深層学習技術による文字認識では、あらかじめ、文字画像と正解とする文字を正しく紐づけた教師データを用いて認識エンジンに学習させる。このとき教師データの数が多いほど認識精度が高くなるが、古文書文字への適用では十分な数の教師データを用意することに課題があった。

これに対し、アルファベットなど文字の種類が少ない場合に、同じ文字をまとめた教師データを用いて特徴を学習させることで、少ない学習データで認識精度を高める手法が提案されているが、多様な書体があり同じ文字でも異なる字形が多数存在する中国古文書には、適用することが困難だった。

今回、中国古文書の文字認識において、教師データが少ない場合でも、高精度な認識が可能となる技術を開発。開発された技術の特徴は以下の通り。

  1. 限られた数の教師データに加え、教師データとして利用されていなかった文字画像データの活用
    学習に利用できるデータを増やすため、これまで、正解の文字と対応づけられておらず教師データとして利用されていなかった大量の文字画像データを、学習に活用。図1のように認識エンジンXを利用して、文字画像データに仮の文字ラベルを付与し学習に利用できるようにする。この段階では、認識エンジンXは十分に学習できていないので、正解ではない仮の文字ラベルが付与された画像データが含まれる。
  2. 同じ文字ラベルを持つ文字画像の特徴パターンと、異なる文字ラベルを持つ文字画像の特徴パターンを比較し、その比較情報を元に認識エンジンを学習
    仮の文字ラベルが付与された文字画像からランダムに二つの文字のペアを生成し、認識エンジンXの学習結果を反映させた、同じ構造の二つの認識エンジンY、Zに入力。このとき、二つの文字が同じ文字か異なる文字かについての結果だけを基に認識エンジンXを学習させる。この手順を繰り返すことで、認識エンジンXの学習が進むに従い、正解ではない仮の文字ラベルの数は減少し、認識精度が向上していく。十分に学習させた認識エンジンXで認識を実行することで、少ない数の教師データでも、高い認識精度を実現することができる。
富士通研究開発中心、教師データ数を削減できる深層学習技術を開発
図1 開発された文字認識方法の構成

同技術を中国古文書文字認識用のデータとして公開されている1000枚の中国敦煌古籍文献画像(※)を用いたベンチマークに適用。その結果、同技術適用前の、教師データのみを用いて学習する従来技術で得られる81%と同じ精度を、一文字当たり約70%少ない教師データ数で達成できたという。また、同ベンチマークにおいて、一文字当たり50個の同じ数の教師データを用いて学習させた場合に、これまで報告されている82%に対して、同技術では88%の認識率を達成した。

富士通研究開発中心、教師データ数を削減できる深層学習技術を開発
図2 開発された文字認識手法の効果(中国敦煌古籍文献画像に適用した結果)

FRDCは同技術を、中国各地の図書館や、古文書画像と検索などの利用ができる電子化テキストが一体に保って保管されている古文書データベース向けに、中国古文書電子化ソリューションとして展開していく。同技術は日本語や韓国語など、認識すべき文字の種類が多い用途に対しても認識精度を高めるのに有効だ。

また、2018年度に同社のAI技術「Human Centric AI Zinrai(ジンライ)」への活用を目指し、限られた教師データで効果的に深層学習エンジンを学習させる仕組みを、例えば、多数の画像データを認識して分類するような、植物の識別など認識すべき対象が多い用途に適用していくという。

※中国敦煌古籍文献画像:中国国立図書館が公共・学術利用を目的にインターネット上で公開している古文書の画像と電子化テキストのセット。アクセス制限がなく幅広く利用できることから、古文書文字認識技術の認識精度ベンチマークで良く利用されている。

提供:富士通

【関連リンク】
富士通(FUJITSU)
富士通研究開発中心(FRDC)

無料メルマガ会員に登録しませんか?

膨大な記事を効率よくチェック!

IoTNEWSは、毎日10-20本の新着ニュースを公開しております。 また、デジタル社会に必要な視点を養う、DIGITIDEという特集コンテンツも毎日投稿しております。

そこで、週一回配信される、無料のメールマガジン会員になっていただくと、記事一覧やオリジナルコンテンツの情報が取得可能となります。

  • DXに関する最新ニュース
  • 曜日代わりのデジタル社会の潮流を知る『DIGITIDE』
  • 実践を重要視する方に聞く、インタビュー記事
  • 業務改革に必要なDX手法などDXノウハウ

など、多岐にわたるテーマが配信されております。

また、無料メルマガ会員になると、会員限定のコンテンツも読むことができます。

無料メールから、気になるテーマの記事だけをピックアップして読んでいただけます。 ぜひ、無料のメールマガジンを購読して、貴社の取り組みに役立ててください。

無料メルマガ会員登録