生成AI、データ利活用、画像処理などの分野でGPUクラスタの重要性が高まる中、サービス提供事業者や利用者にとって、従来は単一のデータセンタ内でGPUクラスタを構築・利用することが一般的であった。
しかし、単一のデータセンタでは、生成AIのモデルサイズ増大に伴う処理量の変動に応じてオンデマンドにGPUリソースを入手できないことや、1拠点のデータセンタのキャパシティや電力供給に制限があること、利用者の拠点から移動できない機密度の高いデータの取り扱いが難しいことが課題であった。
こうした中、NTTコミュニケーションズ株式会社(以下、NTT Com)は、NTTが提唱する超高速かつ超低消費電力を実現するIOWN構想の主要技術である、オールフォトニクス・ネットワーク(以下、APN)で接続した複数のデータセンタに、NVIDIA GPU搭載サーバを分散配置した環境で、NVIDIA AI Enterpriseプラットフォームの一部である「NVIDIA NeMo(※)」を用いた生成AIモデル学習の実証実験に成功したと発表した。
※NVIDIA NeMo:生成AIモデルを構築・カスタマイズ・デプロイするための開発プラットフォーム。
今回実施された実証実験では、NVIDIA GPU搭載サーバを約40km離れた三鷹と秋葉原のデータセンタに分散配置し、データセンタ間を100Gbps回線のIOWN APNで接続した。
そして、「NVIDIA NeMo」を使用して、両拠点のGPUサーバを連携させ、生成AIモデルの分散学習を実施した。
その結果、IOWN APNと「NVIDIA NeMo」を組み合わせた環境で、生成AIのモデル学習(Llama 2 7Bの事前学習)を動作させることに成功した。
技術の主な特長としては、IOWN APNの高速大容量・低遅延接続により、GPUサーバ間のデータ転送が迅速かつ効率的に行われ、小規模なAIモデルの事前学習や追加学習などの比較的軽量な処理に対して、単一のデータセンタと遜色ない性能を発揮する。
具体的には、単一のデータセンタで学習させる場合の所要時間と比較して、インターネット経由の分散データセンタでは29倍の時間がかかるが、IOWN APN経由の分散データセンターでは1.006倍と、単一のデータセンタとほぼ同等の性能を発揮できることが確認された。
また、分散学習に対応した大規模言語モデルの学習、カスタマイズ、展開のためのエンド ツー エンド プラットフォームである「NVIDIA NeMo」を活用したことにより、今回の実証で扱ったMetaのLLM「Llama 2 7B」以外のモデルなど、将来的にさまざまな生成AIの処理に対応可能だ。
なお、この実証は、デル・テクノロジーズ株式会社によるGPUサーバやストレージなどの機器提供および協力のもとで実施したものだ。
今後は、今回の成果をもとに、国内70拠点以上のデータセンタ間などを接続可能な「APN専用線プラン powered by IOWN」や、液冷方式サーバに対応した超省エネ型データセンタサービス「Green Nexcenter」などを組み合せたGPUクラウドソリューションの提供を目指すとしている。
無料メルマガ会員に登録しませんか?
IoTに関する様々な情報を取材し、皆様にお届けいたします。