NVIDIA、音声・動画・画像・レコメンダーのサービスを実現する、AIデータセンタープラットフォームを発表

NVIDIAは、推論アクセラレーターによって、音声、動画、画像およびレコメンダーのサービスを実現する、AIデータセンタープラットフォームを発表した。

このNVIDIA TensorRTTM Hyperscale推論プラットフォームには、同社の画期的なNVIDIA TuringTMアーキテクチャをベースにしたNVIDIA Tesla T4 GPUと新たな推論ソフトウェアの包括的なセットが含まれている。

エンドツーエンドアプリケーション向けに、より低いレイテンシで最高速の性能を発揮する、このプラットフォームにより、ハイパースケールなデータセンターにおいて、新しいサービスを提供することが可能になった。たとえば、検索クエリへの対応では、可能性のある結果のリストを示すのではなく、自然言語でのインタラクションや直接的な回答を行えるようになるという。

巨大な規模のデータセンターでは、毎日、数十億の音声クエリや翻訳、画像、動画、レコメンデーションおよびソーシャルメディアのインタラクションが処理されている。これらの用途では、処理を行うサーバーと組み合わされた、異なったタイプのニューラルネットワークが個別に必要となる。

データセンターを最適化して、スループットとサーバーの利用度を最大化させるために、NVIDIA TensorRT ハイパースケールプラットフォームには、リアルタイム推論ソフトウェアとTesla T4 GPUが搭載されており、これによって、CPU単体の場合に比べて、クエリの処理速度が最大で40倍早くなるという。

NVIDIAでは、AI推論業界は今後5年間で200億ドルのマーケット規模に成長すると推測している。

NVIDIA TensorRT ハイパースケールプラットフォームには、パワフルで、効率性に優れた推論のために最適化された、ハードウェアとソフトウェアの包括的なセットが含まれている。主要なエレメントは以下の通り。

NVIDIA Tesla T4 GPU
320のTuring Tensorコアと2,560のCUDAコアを搭載した、この新しいGPUには、FP32からFP16、INT8、さらにINT4までの、フレキシブルな多倍精度演算を行う、画期的な性能が備わっている。ほとんどのサーバーに簡単に実装できる、エネルギー効率に優れた、75ワットで小型のPCIeフォームファクターにパッケージされたこのGPUは、FP16での最高性能で65TOPS(Trillion Operations Per Second)、INT8で130TOPS、およびINT4で260TOPSの演算性能を有している。
NVIDIA TensorRT 5
推論オプティマイザーにしてランタイムエンジンであるNVIDIA TensorRT 5は、Turing Tensorコアに対応しており、ニューラルネットワーク最適化のための一連の機能がさらに強化されており、混合精度のワークロードが加速される。
NVIDIA TensorRT 推論サーバー
コンテナ化された、このマイクロサービスソフトウェアにより、アプリケーションは、データセンターでの処理において、AIモデルを使用することができる。NVIDIA GPU Cloudコンテナレジストリより無料で入手できる、このエンジンは、データセンターのスループットとGPUの利用度を最大化させるほか、すべての人気のAIモデルおよびフレームワークに対応しており、KubernetesおよびDockerに統合させることができる。