NEC、超大規模データから高速に規則性を発見できる「分散版異種混合学習技術」を開発

NECは、人工知能(AI)によりビッグデータに混在する多数の規則性を発見する技術「異種混合学習技術」をもとに、超大規模データから分散コンピューティングシステムで予測モデルを生成する機能を強化した「分散版異種混合学習技術」を開発した。

「異種混合学習技術」は、ビッグデータの分析・予測において曜日や天気等の条件による「データの場合分け」や「因子(注1)の組み合わせ」を自動で発見する技術だ。これにより、資源の効率化のためのエネルギー・水・食料の需給予測、物流管理を効率化するための在庫需要予測、小売店舗管理の高度化のための商品需要予測などの高精度かつ大規模な予測を行ってきた。

従来、データのサンプル数が数千万件以上でコンピュータ１台の搭載メモリ量より大きい超大規模データを分析する際は、あらかじめデータを分割して分析していた。また、高性能なCPUの搭載(コア数増加など)にも限度があり、大規模データ分析における性能の改善が課題となっていた。

今回開発された「分散版異種混合学習技術」は、分散されたコンピュータ上でそれぞれ異種混合学習での分析を行うと同時に全体の整合も行えるため、コンピュータの台数を増やすことで、データの規模に制限なく予測モデルを生成できる。例えば大手金融機関の残高予測や大規模通信事業者の解約者予測など、数千万件以上のサンプルによる超大規模データの分析が可能だという。

同技術を用いて実証(注2)を行った結果、従来と比べて学習速度が約110倍高速化した(注3)。また、予測精度(注4)も約17％向上した。

NECは、同技術のさらなる開発を進め、2017年度の実用化を目指す。

分散コンピューティングシステムに適応したアルゴリズム(手法)を開発

複数のコンピュータが協調して予測モデルを学習する分散版異種混合学習アルゴリズムを開発。同アルゴリズムは、(1)予測モデル情報(データの場合分けや因子の組み合わせの情報)のみをコンピュータ間で共有すること、(2)共有された個々の予測モデルの情報を統合する独自のアルゴリズムを適用すること、によって各コンピュータが独立して学習しながら全体で整合が取れた高精度な予測モデルを生成する。

分散コンピューティング基盤Apache Sparkに適合した実行用ソフトウェアを開発

分散コンピューティングシステム基盤の一つであるApache Spark(注5)上で動作する分散版異種混合学習アルゴリズムの実行用ソフトウェアを開発。

同ソフトウェアは全ての分析対象データを一度各コンピュータのメモリ上に分散配置すると、以降一切の再配置や再読み込みを行うことなく、分散版異種混合学習アルゴリズムを実行する。これにより、通常、コンピュータの台数増加によって頻度が増す分析対象データの通信やディスク読み込みが不要となり、Sparkの特長である分散メモリ上での計算性能が最大限に発揮されるため、高速にアルゴリズムを実行できるという。

なおNECは同技術を、Spark Summit 2016(6月6日(月)から6月8日(水)まで、開催地:米サンフランシスコ)で8日に、Hadoop Summit San Jose 2016(7月28日(木)から30日(土)まで、開催地:米サンノゼ)で30日に発表する。

(注1) 分析対象を説明(予測)するために入力される変数
(注2) データを分割して従来の異種混合学習技術を適用。約2,000万サンプルの残高データを用いてATMの現金残高を予測する実験。
(注3) データを1,000万サンプルに削減した場合での比較。総CPUコア数は128倍で計算。
(注4)予測値と実績値との誤差
(注5)米UC Berkeleyで開発された汎用的なオープンソースデータ処理フレームワーク

【関連リンク】
・日本電気（NEC）