rinna株式会社は、日本語と英語のバイリンガル大規模言語モデルを開発し、商用利用可能なライセンスでオープンソースとして公開したことを発表した。
今回発表された汎用言語モデルは、約40億パラメータを持つ日本語と英語のバイリンガルGPTであり、日本語と英語のテキスト生成ができる。
学習データには、オープンデータセットを用いており、透明性が高いモデルとなっている。学習データの割合は英語56%、日本語33%、ソースコード11%だ。
また、利用目的に合わせて追加学習することにより、モデルをカスタマイズすることが可能。日英バイリンガルモデルであるため、追加学習にはデータが充実している英語のデータセットを利用することもできる。
なお、40億パラメータは、LLMとしては少量のパラメータ数であるため、推論や追加学習(QLoRA等)を一般コンシューマ向けGPUでも実行することができる。
さらに、対話形式のテキストを生成する「対話言語モデル」、テキストと画像のマルチモーダル入力を実現する「画像対話モデル」、長いテキストの入力を可能とする「長期コンテキスト言語モデル」も開発し、公開した。
「対話言語モデル」は、汎用言語モデルに対して、対話形式でユーザの指示に応えているデータを用いてSFT追加学習をしており、対話形式のテキスト生成を行うことができる。
「画像対話モデル」は、汎用言語モデルとBLIP-2を組み合わせた追加学習により、テキストと画像のマルチモーダル入力からのテキスト生成を実現している。
「長期コンテキストモデル」は、汎用言語モデルに対して、長いテキスト入力を可能とするための追加学習を行っており、入力トークンの上限を2048から8192トークンまで拡大している。
これら事前学習済みのモデルは、Hugging Faceに商用利用可能なMITライセンスで公開されており、オープンソースモデルであるため、ダウンロードすればローカル環境で実行することが可能だ。
今後は、今回開発したモデルの大規模化や、画像入力のマルチモーダルモデルだけでなく、音声を入力とするマルチモーダルモデルについての研究・開発を行っていくとしている。
無料メルマガ会員に登録しませんか?
IoTに関する様々な情報を取材し、皆様にお届けいたします。