富士通研究所、人やモノのつながりを表すグラフ構造のデータから新たな知見を導く機械学習技術「Deep Tensor」開発

株式会社富士通研究所は、人やモノのつながりを表現できるグラフ構造のデータに対して高精度な解析を可能とする機械学習技術「Deep Tensor（ディープテンソル）」を開発した。

今回、画像や音声では極めて高い認識精度を達成している既存のDeep Learning技術をグラフ構造のデータにまで適用可能な新技術を開発。グラフ構造のデータは、構造が複雑であり、大きさや表現方法など多様なデータが混在しているが、最先端の数学を活用してテンソル（注1）と呼ばれる統一的表現に変換することで、Deep Learning技術を用いてグラフ構造のデータを高精度に学習することが可能となるという。

近年、機器間通信を行うIoTや口座間取引のログデータを扱う金融、化学物質の組成のデータベースを活用する創薬など様々な分野で、人やモノのつながりを表すグラフ構造として表現できるデータが大量に蓄積され続けている。これまで富士通研究所では、LOD（注2）と呼ばれるグラフ構造データの検索・分析の技術を開発してきた。これらのグラフ構造のデータを高精度に分類し、解析していくことで、新たな価値の創造やビジネス領域の開拓につながることが期待されている。

従来、グラフ構造のデータの分類では、あらかじめ人が注目した一部分のグラフが、分類対象のグラフ構造データ中に含まれるかどうかに基づいて分類していた。しかし、大量のグラフ構造データを分類の対象とする場合、あらかじめ注目した部分グラフでは表現できていない特徴が多く存在しているため、高精度な分類を実現することに限界があったという。

Deep Learning技術は、データの特徴要素を自動的に抽出することができ、画像や音声の認識などで注目されているが、グラフ構造のデータは、構造が複雑であり、大きさや表現方法など多様なデータが混在しているため、Deep Learning技術を適用することが困難だった。

そこで富士通研究所では、人やモノのつながりを表す様々なグラフ構造のデータを高精度に学習できるDeep Learningの新技術を開発。開発された技術は以下のとおり。

グラフ構造のデータを統一的表現に変換する、新たなテンソル分解技術
多様な表現形式を持つグラフ構造のデータを、ベクトルや行列を拡張したテンソルと呼ばれる数学表現を用いて表現。これを最先端のデータマイニング技術であるテンソル分解（注3）と呼ばれる数学的操作を用いて統一的な表現形式に変換する。従来は、類似するグラフ構造のデータを、必ずしも類似するテンソル表現に変換することができないが、今回、基準となる任意のパターンとの類似度を最大にするようにテンソル分解を行う技術が開発された。
ニューラルネットワークの学習と同時に統一的表現を最適化する技術
ニューラルネットワークの学習過程で通常用いられている誤差逆伝搬法（注4）の適用範囲をテンソル表現まで拡張することにより、分類精度を最大化するように統一的表現も同時に最適化する。具体的には、基準となるパターンを変化させたときのニューラルネットワークの分類誤差の変動の大きさからテンソル表現の基準パターンを更新する。

今回の新しいDeep Learning技術により、コンピュータやIoT機器などの通信ログや、金融取引、化学組成など、グラフ構造で表現できるデータを活用して新たな分析ができるようになる。

同技術を化合物の構造と活性のオープンなデータベースPubChem BioAssay（注5）のデータに適用し、コンピュータ上で医薬品の候補化合物を探索するバーチャルスクリーニングに適用した実験では、サポートベクターマシン（注6）を用いた従来技術の約100倍となる数10万種規模の化合物の構造と活性の関係を学習することができたという。

既存技術では捉えられていなかった特徴が抽出されたことにより、既存技術に比べ約10%向上となる、約80％の活性予測精度を達成。これにより、医薬品開発において課題となっている開発期間やコストを大幅に削減することが期待される。

また、同技術を侵入検知のベンチマークデータ（注7）に適用し、ホスト間の通信関係を表すグラフ構造のデータから不正や攻撃の検知を行う実験では、サポートベクターマシンを用いた既存手法に比べ、2割以上の誤検知の削減に成功。これにより、ネットワーク監視業務の効率化が期待できるという。そのほか、同技術を電子通貨の取引履歴や融資仲介サービスの融資履歴などに適用することにより、不正な金融操作の高精度な検知や融資可否の精緻な判定などが可能になるという。

富士通研究所は、グラフ構造データの分類技術のさらなる高精度化を進め、富士通株式会社（以下、富士通）のAI技術「Human Centric AI Zinrai（ジンライ）（以下、Zinrai）」のコア技術として同技術の2017年度上期中の実用化を目指す。また、より多様なデータ形式へのDeep Learning技術の適用拡大を進め、様々な分野において高度なデータ分析を実現していくという。

注1 テンソル：行列やベクトルなどの概念を一般化した、多次元の配列で表現したデータ。
注2 Linked Open Data（LOD）：世界中で公開されている互いにリンクが張られたデータ。
注3 テンソル分解：多次元の配列を、要素間の多重の相関関係の和に分解する技術。
注4 誤差逆伝搬法：ニューラルネットワークの分類誤差を減少させるアルゴリズム。
注5 PubChem BioAssay：薬理および毒性試験における、化合物の構造と活性データを収録した、世界最大のデータセット。
注6 サポートベクターマシン：データを精度よく分離できる、高次元空間の平面を算出する機械学習技術。
注7 ベンチマークデータ：DARPA Intrusion Detection Data Sets。

【関連リンク】
・富士通研究所（FUJITSU LABORATORIES）
・富士通（FUJITSU）