NTT Com、IOWN APNを活用した分散データセンタでの生成AI学習実証実験に成功

生成AI、データ利活用、画像処理などの分野でGPUクラスタの重要性が高まる中、サービス提供事業者や利用者にとって、従来は単一のデータセンタ内でGPUクラスタを構築・利用することが一般的であった。

しかし、単一のデータセンタでは、生成AIのモデルサイズ増大に伴う処理量の変動に応じてオンデマンドにGPUリソースを入手できないことや、1拠点のデータセンタのキャパシティや電力供給に制限があること、利用者の拠点から移動できない機密度の高いデータの取り扱いが難しいことが課題であった。

こうした中、NTTコミュニケーションズ株式会社(以下、NTT Com)は、NTTが提唱する超高速かつ超低消費電力を実現するIOWN構想の主要技術である、オールフォトニクス・ネットワーク(以下、APN)で接続した複数のデータセンタに、NVIDIA GPU搭載サーバを分散配置した環境で、NVIDIA AI Enterpriseプラットフォームの一部である「NVIDIA NeMo(※)」を用いた生成AIモデル学習の実証実験に成功したと発表した。

※NVIDIA NeMo:生成AIモデルを構築・カスタマイズ・デプロイするための開発プラットフォーム。

今回実施された実証実験では、NVIDIA GPU搭載サーバを約40km離れた三鷹と秋葉原のデータセンタに分散配置し、データセンタ間を100Gbps回線のIOWN APNで接続した。

そして、「NVIDIA NeMo」を使用して、両拠点のGPUサーバを連携させ、生成AIモデルの分散学習を実施した。

NTT Com、IOWN APNを活用した分散データセンタでの生成AI学習実証実験に成功
実証のイメージ

その結果、IOWN APNと「NVIDIA NeMo」を組み合わせた環境で、生成AIのモデル学習(Llama 2 7Bの事前学習)を動作させることに成功した。

技術の主な特長としては、IOWN APNの高速大容量・低遅延接続により、GPUサーバ間のデータ転送が迅速かつ効率的に行われ、小規模なAIモデルの事前学習や追加学習などの比較的軽量な処理に対して、単一のデータセンタと遜色ない性能を発揮する。

具体的には、単一のデータセンタで学習させる場合の所要時間と比較して、インターネット経由の分散データセンタでは29倍の時間がかかるが、IOWN APN経由の分散データセンターでは1.006倍と、単一のデータセンタとほぼ同等の性能を発揮できることが確認された。

また、分散学習に対応した大規模言語モデルの学習、カスタマイズ、展開のためのエンド ツー エンド プラットフォームである「NVIDIA NeMo」を活用したことにより、今回の実証で扱ったMetaのLLM「Llama 2 7B」以外のモデルなど、将来的にさまざまな生成AIの処理に対応可能だ。

なお、この実証は、デル・テクノロジーズ株式会社によるGPUサーバやストレージなどの機器提供および協力のもとで実施したものだ。

今後は、今回の成果をもとに、国内70拠点以上のデータセンタ間などを接続可能な「APN専用線プラン powered by IOWN」や、液冷方式サーバに対応した超省エネ型データセンタサービス「Green Nexcenter」などを組み合せたGPUクラウドソリューションの提供を目指すとしている。

無料メルマガ会員に登録しませんか?

膨大な記事を効率よくチェック!

IoTNEWSは、毎日10-20本の新着ニュースを公開しております。 また、デジタル社会に必要な視点を養う、DIGITIDEという特集コンテンツも毎日投稿しております。

そこで、週一回配信される、無料のメールマガジン会員になっていただくと、記事一覧やオリジナルコンテンツの情報が取得可能となります。

  • DXに関する最新ニュース
  • 曜日代わりのデジタル社会の潮流を知る『DIGITIDE』
  • 実践を重要視する方に聞く、インタビュー記事
  • 業務改革に必要なDX手法などDXノウハウ

など、多岐にわたるテーマが配信されております。

また、無料メルマガ会員になると、会員限定のコンテンツも読むことができます。

無料メールから、気になるテーマの記事だけをピックアップして読んでいただけます。 ぜひ、無料のメールマガジンを購読して、貴社の取り組みに役立ててください。

無料メルマガ会員登録