ELYZA、商用利用可能な70億パラメータの日本語LLMを一般公開

株式会社ELYZAは、Meta Platforms, Inc.（以下、Meta）が開発した大規模言語モデル（以下、LLM）である「Llama 2」に対し、日本語による追加事前学習を行ない、商用利用可能な70億パラメータの日本語LLM「ELYZA-japanese-Llama-2-7b」を開発し、一般公開した。

「Llama 2」は、2023年7月18日にMetaが公開した英語ベースの大規模言語モデルだ。先に公開された「LLaMA」が研究用途に限定されていたのに対し、「Llama 2」は商用利用も可能となっている。

サイズは70億、130億、700億の3種類となっており、いずれのモデルも教師ありファインチューニング（Supervised Fine-Tuning、SFT）及び、人間からのフィードバックに基づいた強化学習（Reinforcement Learning from Human Feedback、RLHF）を施したchatモデルを同時に公開している。

今回発表された「ELYZA-japanese-Llama-2-7b」は、Metaの「Llama-2-7b-chat」に対して、約180億トークンの日本語テキストで追加事前学習を行ったモデルだ。

研究および商業目的での利用が可能なモデルとしての公開となっており、性能評価の結果、1750億パラメータを有する「GPT-3.5（text-davinci-003）」に匹敵するスコアが算出されている。

学習に用いたのは、OSCARやWikipedia等に含まれる綺麗な日本語テキストデータだ。複数のバリエーションがあり、ELYZA独自の事後学習を施した「ELYZA-japanese-Llama-2-7b-instruct」や、日本語の語彙追加により高速化を行った「ELYZA-japanese-Llama-2-7b-fast-instruct」が存在する。

また、chatUI形式のデモ、推論用コード、性能評価用のデータセットと具体的な評価結果シートも合わせて公開されている。

さらに、近日中に公開予定の技術ブログでは、「Llama 2」を日本語化する中で得られた知見やノウハウについての詳細を共有する予定だ。

今後は、「Llama 2」での取り組みに限らず、海外のオープンなモデルの日本語化や、自社独自の大規模言語モデルの開発に継続して投資していくとしている。

また、「ELYZA-japanese-Llama-2-7b」は、「Llama 2」の最も小さいサイズである70億パラメータのモデルをベースに開発されているが、既に130億、700億パラメータのモデルの開発にも着手しており、それらのモデルについても公開を検討しているのだという。