国立研究開発法人情報通信研究機構(以下、NICT)は、ユニバーサルコミュニケーション研究所データ駆動知能システム研究センターにおいて、独自に収集した350GBの日本語Webテキストのみを用いて、400億パラメータの生成系の大規模言語モデルを開発した。
NICTでは、これまでWebページを収集し、インターネット上にある知識を有効活用するため、深層学習を自然言語処理技術に応用し、様々な研究開発に取り組んできた。
2018年に識別系の言語モデルと呼ばれるBERTが発表されてから、独自に収集した日本語のWebテキストを用いて、BERTを基に日本語用に改良した識別系言語モデルを構築し、2021年に試験公開を開始した大規模Web情報分析システム「WISDOM X深層学習版」や高齢者介護支援用対話システム「MICSUS」などで活用してきた。
そして、識別系言語モデルとしては大規模な、200億パラメータのモデルを構築するなど、大規模言語モデルの構築に関するノウハウを蓄積してきた。
NICTは、これまで構築してきた識別系言語モデルの学習に用いていた、ノイズに相当するテキストが少ない350 GBの高品質な独自の日本語Webテキストを用いて、400億パラメータの生成系の大規模言語モデルを事前学習し、その動作の検証を開始した。
これまでノウハウを蓄積していたこともあり、ユーザインタフェースを含め4か月程度で完了させたのだという。
今回は、学習の完了を優先させて事前学習を実施しており、ファインチューニングや強化学習は未実施であるため、短めの入出力、洗練されていない日本語表現といった性能ではあるが、下図に示すように、日本語でのやり取りが可能な水準に到達している。
要領を得ないテキストが出力されるケースも多々あるものの、各種質問への回答、要約、論文要旨の生成、翻訳などが可能になっている。(トップ画参照)
加えて、存在しない映画の簡単なあらすじを生成するといった、一種の創作ができる可能性も示されている。
また、著作権侵害の問題に関しては、生成したテキストに類似するテキストが学習データにないかを自動検索し、著作権侵害のチェックを容易にしている。
NICTは今回の開発を通し、事前学習用テキストの整形、フィルタリング、大規模計算基盤を用いた事前学習等、生成系の大規模言語モデル開発における多くの知見を得たとしている。
現在は、更に大規模な1,790億パラメータの生成系大規模言語モデル(OpenAI社のGPT-3と同等規模)の学習を実施中なことに加え、学習用テキストの大規模化にも取り組んでいる。
今後は、学習用のテキストについて、日本語を中心として更に大規模化していくほか、共同研究等を通して民間企業、国研、大学等と協力して、日本語の大規模言語モデルの研究開発や利活用に取り組む予定だ。
一方で、生成テキストの悪用の可能性を示唆する結果も得られており、今後、ポジティブ、ネガティブの両方の要素に関して改善を図っていく。
また、NICTでこれまでに蓄積してきた人手により作成した大量の学習データ、例えば、WISDOM Xの150万件を超える質問応答用データ等を活用して、ファインチューニング等を行い、品質を高め、具体的なアプリケーションでの活用を容易にしていくとしている。
無料メルマガ会員に登録しませんか?
IoTに関する様々な情報を取材し、皆様にお届けいたします。