昨今、生成AIの基盤モデルをチューニングするための追加学習が普及している一方で、このチューニング作業は基盤モデルの更新や変更時に再学習が必要となり、大きな計算コストが生じる問題がある。
こうした中、日本電信電話株式会社(以下、NTT)は、深層学習において、過去の学習過程をモデル間で再利用する「学習転移」技術を実現したと発表した。
一般に深層学習では、与えられた訓練用のデータセットに対して、ニューラルネットワークモデルのパラメータを逐次的に最適化することで学習が行われている。
学習中のパラメータ変化に関する履歴はモデルの学習過程と呼ばれ、学習の初期値やランダム性に大きく影響されることが知られている。
一方で、初期値やランダム性の異なるモデル間の学習過程がどのように相違・類似しているかは解明されておらず、活用されてこなかった。
そこでNTTでは、ニューラルネットワークのパラメータ空間にある高い対称性に着目し、とくに置換変換と呼ばれるニューロンの入れ替えに関する対称性の下で、異なるモデル間の学習過程同士を近似的に同一視できることを発見した。(トップ画)
この発見に基づき、過去の学習過程を適切な置換対称性(※)によって変換することで、新たなモデルの学習過程として再利用できる「学習転移」技術を提唱および実証した。
※置換対称性:ニューロンの入れ替えによりパラメータが変わっても、全体の出力は変わらないという性質のこと。
この学習転移では、高コストな学習を行うことなく、低コストな変換のみにより一定の精度を達成することが可能だ。さらに、学習転移後に追加の学習を行うことで、目標精度に早く収束することも示したのだという。
技術のポイントとしては、2つの学習過程間の変換を最適化する学習転移の定式化や高速なアルゴリズムの導出、ニューラルネットワークが大規模になるほど、実際に学習転移が可能となることを理論的に示したことなどが挙げられている。
NTTはこの成果に対し、「深層学習における新たな学習手法の基礎理論を確立し、その応用として基盤モデル更新・変更時のチューニングコストを大幅に低減できる可能性を明らかにした。」としている。
また、「これにより、NTTが研究開発を進める大規模言語モデル『tsuzumi』をはじめとした多様な基盤モデルの運用コスト削減や、多数のAIで議論することで多様な解の創出を目指すAIコンステレーションの具現化など、次世代のAI技術開発に貢献する。」とされている。
なおこの成果は、2024年5月7日から11日までオーストリア・ウイーンで開催される機械学習分野の国際会議「ICLR 2024」で発表される予定だ。
無料メルマガ会員に登録しませんか?
IoTに関する様々な情報を取材し、皆様にお届けいたします。