富士通研究所とFRDC、人工知能モデルを活用した高精度の手書き文字列認識技術を開発

富士通研究開発中心有限公司（以下、FRDC）と株式会社富士通研究所は、手書き文字列での画像認識において、信頼性の高い認識結果を出力できる人工知能モデルを開発し、中国語の手書き文字列の認識性能において、世界最高精度を達成したと発表した。

深層学習をはじめとする人工知能モデルによる単一の中国語手書き文字認識は、すでに人間の認識能力を超えているという（※）。しかし手書きの文字列に適用した場合、1つの文字の区切りを正しく判別できないことが実用上の大きな課題となっていた。今回、手書き文字列の画像認識において、正しい文字を高信頼度に、文字にならない部分を低信頼度に出力可能な新しい人工知能モデルが開発された。同モデルの適用により、文字の認識ミスを従来の半分以下に抑えることができ、手書きテキスト電子化入力作業などの効率が大幅に向上するという。

従来の文字の教師サンプルに加え、新たに開発した部首やつくりなどのパーツや、文字にならないパーツの組み合わせからなる非文字の教師サンプルによる異種深層学習モデルにより、正しい文字のみに高い信頼度が出力される技術が開発された。同技術の特徴は以下のとおり。

非文字を含む異種深層学習モデルの効果的な学習技術
異種深層学習モデルには、従来の文字の教師サンプルと、非文字の教師サンプルの二種類が含まれる。文字の教師サンプルの数と比較して、文字を分解し、さらに組み合わせで得られる非文字の教師サンプルは膨大な数になる。そのため、中国語文中で、隣り合って現れやすいパーツの組み合わせを、非文字の特徴として記憶させて重みづけを行うことで、非対称な構造の深層学習モデルに対しても、効果的に学習できる技術を開発。
信頼度の高低を利用して手書き文字列を正しい区切りで分解する技術
学習済みの異種深層学習モデルに候補領域の画像を入力すると文字と非文字それぞれの信頼度が出力され、文字となる候補領域に高い信頼度を、文字ではない候補領域に低い信頼度を出力する仕組みを設けることにより、文字列中の一つ一つの文字の区切りを効果的に判別する技術を開発。加えてに既存技術である中国語の言語処理モデルを適用して、認識候補が正しい中国語の文字列になるかということを解析した上で、最終的な候補文章を出力させるという。
今回の認識技術を適用すると、文字として存在しないパーツの組み合わせに対しては、文字としてみたときの信頼度のレベルが低くなるため、文字列の先頭から信頼度の高い区切りを順に選択していくことにより正しい認識結果が得られるという。

開発された技術を、中国科学院自動化研究所「Institute of Automation, Chinese Academy of Sciences（CASIA）」が2010年に公開し、学会で標準として用いられている手書き中国語データベースに適用したベンチマークにおいて、従来技術に比べて5%上回る96.3%の最高精度を達成したという。これにより手書きテキスト入力作業などの効率が大幅に向上できる。

同技術は、スペースによる単語の区切りのない、中国語、日本語、韓国語などの言語に対して有効だという。同技術を、富士通研究所が長年の技術的蓄積で強みをもつ日本語の言語処理技術と融合させることで、日本語の自由手書き文字に対しても認識精度の大きな向上が見込まれます。同技術は2017年に、富士通のAI技術「Zinrai」への活用を目指し、順次日本向けの手書き帳票電子化などのソリューションに適用していくという。

※人間の認識能力を超えている：人間の脳の働きを模した人工知能技術を活用し、中国語の手書き文字認識率96.7パーセントを達成（2015年9月17日プレスリリース）