NVIDIA、対話型AIアプリケーションを実現する推論ソフトウェア開発キット「NVIDIA TensorRT 7」を発表

Juniper Researchでは、全世界のデバイスで32億5,000万のデジタル音声アシスタントが使用されていると推定している。2023年までには、その数が80億に達し、世界の総人口を上回ると予想した。

このような中、NVIDIAは、あらゆる場所の開発者が対話型AIアプリケーションを実現するための第7世代の推論ソフトウェア開発キット「NVIDIA TensorRT 7」を発表した。音声エージェントやチャットボット、レコメンドエンジンといったアプリケーションを使った、リアルタイムのエンゲージメントを可能にし、推論の遅延を削減する。

TensorRT 7の特長の1つに、ディープラーニングコンパイラが挙げられる。これは、AI音声アプリケーションに必要な複雑さが増す一方のリカレントやトランスフォーマーベースのニューラルネットワークを自動的に最適化・高速化するように設計されている。これにより、対話型AIの各コンポーネントが、CPUで実行される場合と比較して10倍以上高速化し、遅延がリアルタイムインタラクションに必要と考えられている300ミリ秒のしきい値を下回る。

TensorRT 7は、リカレント ニューラル ネットワーク(以下、RNN)と呼ばれる再帰ループ構造を使った、時系列的なシーケンスデータのシナリオを予測するために使われるAIモデルの世界展開を行う。RNNは、対話型AIの音声ネットワークの他、自動車または衛星の到着時間計画、電子医療記録のイベント予測、金融資産予想および不正検知にも利用できる。

このRNNの構成と機能の組み合わせが増えており、リアルタイム性能の基準を満たしたプロダクションコードを迅速に展開するという課題も発生している。開発者は、手書きのコードを最適化するため、数か月の遅れが出る場合もある。その結果、対話型AIの利用は少数の企業だけに限られてきた。

TensorRT 7のディープラーニングコンパイラを使うことで、開発者が独自の自動音声認識ネットワークや、テキストから音声への変換のためのWaveRNNやTacotron 2などのネットワークを自動的に最適化できるようになり、低遅延を実現する。同コンパイラにより、自然言語処理のためのBERTのようなトランスフォーマーベースのモデルも最適化が可能だ。

また、TensorRT 7により、トレーニング済みのニューラルネットワークを短期間で最適化、検証および展開が可能になるため、ハイパースケール データセンターや組み込み・単体のGPUプラットフォームで推論が可能になる。

NVIDIAの推論プラットフォームには、TensorRT、複数のNVIDIA CUDA-X AIライブラリおよびNVIDIA GPUが含まれ、画像分類や不正検知、セグメンテーション、物体検知、レコメンド エンジンといった対話型AI以外のアプリケーションにも、低遅延かつ高スループットの推論を実現する。

GTC Chinaの基調講演にて、NVIDIAの創業者/CEO であるジェンスン フアン氏は、次のように述べた。「私たちはAIの新しい章を迎えました。機械が人間の言語をリアルタイムで理解する能力を持つようになります。TensorRT 7により、これが実現され、より自然に人間とAIとのやり取りを可能にする、より高速でよりスマートな対話型AIサービスを構築し展開するためのツールを世界中の開発者に提供します。」

TensorRT 7は、近日中にTensorRTウェブページを通じて、NVIDIA開発者プログラムのメンバーに無償で提供される。最新バージョンのプラグイン、パーサーおよびサンプルは、TensorRT GitHub リポジトリからオープンソースとして入手することも可能だ。

Previous

NVIDIA、自動運転車両・ロボット向けソフトウェア デファインド プラットフォーム「DRIVE AGX Orin」を発表

NTT Comなど、製薬業界向けAI翻訳の精度を向上させる「製薬カスタムモデル共同開発」の参加メンバーを募集

Next