NVIDIA、大規模データ分析およびマシンラーニング向けオープンソースを公開

NVIDIA は10月10日、データ分析およびマシンラーニング向けの GPU アクセラレーションプラットフォームRAPIDS を発表した。業界をリードする企業に広く採用されることで、最大規模の企業でもかつてないスピードで大量のデータを分析し、正確なビジネス予測が可能になるとのこと。

RAPIDS は、クレジットカード詐欺の予想や、小売り在庫の予測や顧客の購入行動を理解するなど、複雑なビジネス課題に取り組むデータ サイエンティストのパフォーマンスを大幅に向上させるという。

データ分析におけるGPUの重要性についての合意が進むのを反映して、DatabricksやAnacondaといったオープンソースコミュニティのパイオニアから、Hewlett Packard EnterpriseやIBM、Oracle などのテクノロジ リーダー企業まで、多くの企業が RAPIDS を支持しているとのこと。

データ分析やマシンラーニングのためにアナリストたちが1年間に200憶ドルをかけてサーバー市場を評価している。これにより、科学的解析およびディープラーニングと合わせると、ハイパフォーマンスコンピューティング市場の価値はおよそ360憶ドルに
まで押し上げられているとのこと。

RAPIDS は、GPU でアクセラレートした分析やマシンラーニングに、さらにデータ可視化にも、一連のオープンソースライブラリを提供する。NVIDIA のエンジニアが主要なオープンソース提供者と協力しあい、この2年間で開発してきたという。

サイエンティストが GPU 上でデータ分析パイプラインをすべて実行するために必要なツールとしては、これが初めてのもの。NVIDIA DGX-2TM システムでのトレーニング用に XGBoost マシンラーニング アルゴリズムを使用した初期の RAPIDS ベンチマークでは、CPU のみのシステムと比較して 50 倍もスピードアップした。

オープンソース コミュニティとの密な連携

RAPIDS は、Apache Arrow や pandas、scikit-learn などを含む一般的なオープンソース プロジェクト上で、最も一般的なPython データ分析ツールチェーンに GPU アクセラレーションを追加することで構築される。

RAPIDS にマシンラーニング ライブラリや機能を追加するため、Anaconda、BlazingDB、Databricks、Quansight、scikit-learn といったオープンソース エコシステム提供者のほか、Ursa Labs 代表であり Apache Arrow および pandas、さらには急成長中の Python データ分析ライブラリを生んだウェス マッキニー (Wes McKinney) 氏の協力を得ている。

幅広い採用を目的として、NVIDIA は、RAPIDS を解析およびデータ分析用としてオープンソース フレームワークをリードするApache Arrow Spark に統合する予定とのこと。

幅広いエコシステムサポートと採用

さまざまな業界にまたがってテクノロジを牽引する企業が、早くも NVIDIA の GPU アクセラレーションプラットフォームおよびRAPIDS を取り入れている。さらに、世界の主要なテクノロジ企業が、新しいシステムやデータ分析プラットフォーム、ソフトウェア ソリューションを通じてRAPIDS をサポートしているという。

これにより、データサイエンティストはデータセットのサイズによって何日間もかかっていたトレーニング時間を数時間に、あるいは数時間を数分にまで、削減することができる。

【関連リンク】
NVIDIA

Previous

旭化成グループとエコライフ、 AIスマートホームシステム「CASPAR」の実証実験を開始

IoT人気記事ランキング|八子知礼×小泉耕二 対談「データで儲ける」ってどういうこと? など[10/1-10/7]

Next