NTT、AIモデルの再学習コストを削減する「学習転移」技術を開発

企業:

昨今、生成AIの基盤モデルをチューニングするための追加学習が普及している一方で、このチューニング作業は基盤モデルの更新や変更時に再学習が必要となり、大きな計算コストが生じる問題がある。

こうした中、日本電信電話株式会社(以下、NTT)は、深層学習において、過去の学習過程をモデル間で再利用する「学習転移」技術を実現したと発表した。

一般に深層学習では、与えられた訓練用のデータセットに対して、ニューラルネットワークモデルのパラメータを逐次的に最適化することで学習が行われている。

学習中のパラメータ変化に関する履歴はモデルの学習過程と呼ばれ、学習の初期値やランダム性に大きく影響されることが知られている。

一方で、初期値やランダム性の異なるモデル間の学習過程がどのように相違・類似しているかは解明されておらず、活用されてこなかった。

そこでNTTでは、ニューラルネットワークのパラメータ空間にある高い対称性に着目し、とくに置換変換と呼ばれるニューロンの入れ替えに関する対称性の下で、異なるモデル間の学習過程同士を近似的に同一視できることを発見した。(トップ画)

この発見に基づき、過去の学習過程を適切な置換対称性(※)によって変換することで、新たなモデルの学習過程として再利用できる「学習転移」技術を提唱および実証した。

※置換対称性:ニューロンの入れ替えによりパラメータが変わっても、全体の出力は変わらないという性質のこと。

NTT、AIモデルの再学習コストを削減する「学習転移」技術を開発
学習転移の概要

この学習転移では、高コストな学習を行うことなく、低コストな変換のみにより一定の精度を達成することが可能だ。さらに、学習転移後に追加の学習を行うことで、目標精度に早く収束することも示したのだという。

NTT、AIモデルの再学習コストを削減する「学習転移」技術を開発
基盤モデル更新時の学習高速化

技術のポイントとしては、2つの学習過程間の変換を最適化する学習転移の定式化や高速なアルゴリズムの導出、ニューラルネットワークが大規模になるほど、実際に学習転移が可能となることを理論的に示したことなどが挙げられている。

NTTはこの成果に対し、「深層学習における新たな学習手法の基礎理論を確立し、その応用として基盤モデル更新・変更時のチューニングコストを大幅に低減できる可能性を明らかにした。」としている。

また、「これにより、NTTが研究開発を進める大規模言語モデル『tsuzumi』をはじめとした多様な基盤モデルの運用コスト削減や、多数のAIで議論することで多様な解の創出を目指すAIコンステレーションの具現化など、次世代のAI技術開発に貢献する。」とされている。

なおこの成果は、2024年5月7日から11日までオーストリア・ウイーンで開催される機械学習分野の国際会議「ICLR 2024」で発表される予定だ。

無料メルマガ会員に登録しませんか?

膨大な記事を効率よくチェック!

IoTNEWSは、毎日10-20本の新着ニュースを公開しております。 また、デジタル社会に必要な視点を養う、DIGITIDEという特集コンテンツも毎日投稿しております。

そこで、週一回配信される、無料のメールマガジン会員になっていただくと、記事一覧やオリジナルコンテンツの情報が取得可能となります。

  • DXに関する最新ニュース
  • 曜日代わりのデジタル社会の潮流を知る『DIGITIDE』
  • 実践を重要視する方に聞く、インタビュー記事
  • 業務改革に必要なDX手法などDXノウハウ

など、多岐にわたるテーマが配信されております。

また、無料メルマガ会員になると、会員限定のコンテンツも読むことができます。

無料メールから、気になるテーマの記事だけをピックアップして読んでいただけます。 ぜひ、無料のメールマガジンを購読して、貴社の取り組みに役立ててください。

無料メルマガ会員登録