NVIDIAプラットフォームが機能強化、「Tesla V100」GPUはメモリが2倍に

NVIDIAは昨日、同社が開催したGPU テクノロジカンファレンスにて、ディープラーニングコンピューティングプラットフォームにおける一連の重要な機能強化を発表した。これにより、ディープラーニングワークロードにおいて、6 か月前の前世代に比べ10 倍のパフォーマンスを実現するとしている。

NVIDIAプラットフォームへの主な機能強化には、同社の中でももっとも処理能力の高いデータセンター GPU である NVIDIA Tesla V100 のメモリが2 倍になったほか、革最新 GPU インターコネクトファブリックである NVIDIA NVSwitchが含まれる。

NVSwitch によって、最大 16 基の Tesla V100 GPU を使って 1 秒間に 2.4 テラバイトという記録的な速度で同時通信できるようになるという。また、最適化された最新のソフトウェアスタックも発表した。

他にも、NVIDIA は、2 ペタフロップスの計算能力を提供できる単一サーバー NVIDIA DGX-2を発表。DGX-2は15ラックを占める300台のサーバーに匹敵するディープラーニング処理能力を備えつつ、サイズはその60分の1で、電力効率は18倍だという

Tesla V100 のメモリが 2 倍に

Tesla V100 GPU はこのほど、メモリインテンシブなディープラーニングワークロードやハイパフォーマンスコンピューティングワークロードを処理できるよう、メモリが 2 倍になった。

32 GB のメモリが搭載された Tesla V100 GPU を使用すれば、データサイエンティストは、より深くより大規模なディープラーニングモデルのトレーニングをこれまで以上に正確に行えるようになる。

また、メモリに制約のある HPC アプリケーションでも、以前の 16 GB版と比べてパフォーマンスを最大 50% 向上させることができるという

Tesla V100 32GB GPU は、NVIDIA DGX システムポートフォリオ全体ですぐに利用できる。また、主要コンピューターメーカーである Cray、Hewlett Packard Enterprise、IBM、Lenovo、Supermicro、および Tyanが、第 2 四半期中に新しい Tesla V100 32GB 搭載システムのロールアウトを開始すると発表した。

他にも、Oracle Cloud Infrastructure が、今年後半にクラウドで Tesla V100 32GBの提供を開始する計画を明らかにしている。

NVSwitch：インターコネクトファブリック

NVSwitch は、最高の PCIe スイッチの 5 倍の帯域幅を実現できるという。これにより、開発者はより多くの GPUが相互にハイパーコネクトされたシステムを構築して、従来より大規模なデータセットを実行できるようになると期待される。

また、ニューラルネットワークの並列トレーニングのモデル化など、より大規模で複雑なワークロードを扱えるようになるという。

NVSwitch は、NVIDIA が開発した初の高速インターコネクトテクノロジである NVIDIA NVLink によって提供されるイノベーションを拡張。NVSwitch を使用すると、システム設計者は、NVLink ベースの GPU の任意のトポロジを柔軟に接続できる、より一層高度なシステムを構築することが可能になるという。

最先端の GPU アクセラレーテッドディープラーニングと HPC ソフトウェアスタック

NVIDIA のディープラーニングと HPC ソフトウェアスタックの更新は、無償で NVIDIA の開発者コミュニティに提供される。このコミュニティの総登録ユーザー数は、1 年前の 48 万人から、現在では 82 万人を超えるという。

その更新には、NVIDIA CUDA、TensorRT、NCCL と cuDNN、およびロボット工学向けの新しい Isaac ソフトウェア開発者キットが含まれる。加えて、大手クラウドサービスプロバイダーとの連携により、主要なディープラーニングフレームワークが NVIDIA の GPU コンピューティングプラットフォームを十分に活用できるよう絶えず最適化されるという。

NVIDIA DGX-2：2 ペタフロップシステム

NVIDIA の最新 DGX-2 システムが 2 テラフロップのマイルストーンを達成した。同社は、これをコンピューティングスタックのあらゆるレベルで NVIDIA が開発した幅広い業界最先端テクノロジによって実現したものだとしている。

DGX-2 は NVSwitch をサポートする初のシステムで、NVSwitch によってシステムの 16 基すべての GPU がユニファイドメモリ領域を共有できる。開発者は、最大規模のデータセットときわめて複雑なディープラーニングモデルに対処できるディープラーニングトレーニング能力を手にすることができる。

NVIDIA の最適化された最新のディープラーニングソフトウェアスイートと統合された DGX-2 は、ディープラーニングの研究とコンピューティングの限界を押し広げようとするデータサイエンティストのために構築された。

DGX-2 は、最先端のニューラル機械翻訳モデル FAIRSeq のトレーニングを 2 日未満で終えることができる。これは、昨年 9月に発表された Volta 搭載の DGX-1 から 10 倍のパフォーマンス向上になるという。

【関連リンク】
・エヌビディア（NVIDIA）