国立研究開発法人情報通信研究機構(以下、NICT)は、2023年からLLMに関する研究開発を本格化させ、これまでに蓄積してきた600億件以上のWebページを活用し、合計17個の大規模言語モデル(以下、LLM)の事前学習を完了させている。
また、政府は学習用言語データの整備・拡充を目指しており、総務省・NICTにおいて、これらのWebページのデータやそこから作成した学習用データ等を民間企業、国研、大学等と共同研究等を通して活用する上での法的課題について整理した上で、共同研究を実施するための準備を進めてきた。
こうした中、NICTは、KDDI株式会社とLLMに関する共同研究を開始した。
この共同研究では、NICTがこれまでに蓄積してきた600億件以上のWebページ等と、KDDIが開発してきたハルシネーション抑制技術、マルチモーダルAI技術を活用し、高性能なLLMを実現するための研究開発を実施する。
具体的には、LLMで課題となっているハルシネーションを抑制する技術を対象とするLLMの傾向に合わせて、高度化する技術を研究開発するとともに、テキストに加えて日本の地理空間情報などのマルチモーダルデータをLLMで取り扱う技術を研究開発する。
これらの技術により、例えば、特定の目的のための対話システムや雑談システムにおいて、ハルシネーションが抑制することでシステムの信頼性を向上させ、対話における対象の位置関係の把握をより適切に行えるようにすることを目指す。
今後NICTは、より多くの機関にNICTが有する膨大なWebデータ等を活用してもらうことで、日本におけるLLMの研究開発力の向上に貢献していくとしている。
無料メルマガ会員に登録しませんか?
膨大な記事を効率よくチェック!

IoTに関する様々な情報を取材し、皆様にお届けいたします。