rinna株式会社は、Metaの大規模言語モデル「Llama 3 8B」に対して、日本語データで継続事前学習を行った「Llama 3 Youko 8B」を開発し、Meta Llama 3 Community Licenseで公開した。
「Llama 3 Youko 8B」は、80億パラメータの「Llama 3 8B」に対して、日本語と英語の学習データ220億トークンを用いて継続事前学習したモデルだ。「Meta Llama 3」を継承してモデルを公開しており、このライセンスに従い利用することができる。
「Llama 3」は、日本語言語モデルの性能を評価するためのベンチマークの一つである Stability-AI/lm-evaluation-harnessの9タスク平均スコアが59.82であるのに対し、「Llama 3 Youko 8B」は66.15となっている。
なお、今回公開された「Llama 3 Youko 8B」は汎用的なベースモデルであり、目的とするタスクで利用する場合には、ファインチューニングやモデルマージを行い利用することが推奨されている。
無料メルマガ会員に登録しませんか?
膨大な記事を効率よくチェック!
IoTに関する様々な情報を取材し、皆様にお届けいたします。