近年、米国を中心に大規模言語モデル(以下、LLM)の開発が活発に行われ、研究開発、経済社会、安全保障などあらゆる場面において変革が起きている。
日本においても、日本のスーパーコンピュータのフラッグシップシステムである「富岳」における大規模な分散並列計算を実施するための環境整備が求められていた。
こうした中、東京工業大学 学術国際情報センターの横田理央教授の研究チームと東北大学 大学院情報科学研究科の坂口慶祐准教授、富士通株式会社 人工知能研究所の白幡晃一シニアプロジェクトディレクタ、理化学研究所のMohamed Wahibチームリーダ、名古屋大学 大学院工学研究科の西口浩司准教授、株式会社サイバーエージェント AI事業本部AI Labの佐々木翔大リサーチサイエンティスト、Kotoba Technologies Inc.の小島熙之CEOは、理化学研究所のスーパーコンピュータ「富岳」を用いて学習した日本語能力に優れたLLM「Fugaku-LLM」を2024年5月10日に公開した。
このモデルは、日本語能力に優れ、130億パラメータを持つもので、国内で多く開発されている70億パラメータより一般に高性能である。
今回、深層学習フレームワークを「富岳」に移植して、ニューラルネットワークの「Transformer」の性能を「富岳」上で最適化するとともに、並列分散学習手法を開発し適用することで、「富岳」を用いてLLMの学習を行う際の演算速度を6倍に高速化した。
さらに、「富岳」向けに、高速なTofuインターコネクトD上での集団通信の最適化を行うことにより、通信速度を3倍高速化することに成功した。これにより「富岳」のCPUを用いて、現実的な時間内でLLMを学習することが可能になった。
なお「Fugaku-LLM」は、オープンソースソフトウェアの公開に使われているプラットフォームである「GitHub」や「Hugging Face」を通じ公開しており、ライセンスに従う限りにおいては、研究および商業目的での利用が可能である。
無料メルマガ会員に登録しませんか?

IoTに関する様々な情報を取材し、皆様にお届けいたします。