NTT、複雑なデータを柔軟に分類できる機械学習技術を実現

現在の統計的機械学習は、膨大な量の様々なデータを大規模なパラメータを持つモデルで解析することができるようになってきた。しかし、多様な量・特性のデータに対して有効な汎用の学習モデルを設計することは難しく、一般に入力データや解きたい課題に応じて学習モデルの規模やパラメータの調整が必要だ。さらに、このようなモデルの調整は、職人芸的な技巧や、膨大な労力を必要とすることが少なくない。

そこで、与えられたデータに合わせてモデルの規模やパラメータを自動的に調整する手法の需要が高まっている。

一方、我々が解析の対象とするデータの形態もまたより複雑になってきている。例えば、ユーザと購買商品をそれぞれ行と列に取った行列形式のデータは関係データと呼ばれ、その中に現れる特徴的な性質を捉えることは、ユーザへの商品推薦システムの効率化などで活用される。

また、ソーシャルネットワーキングサービスにおいて、行と列に利用者を並べて利用者間のつながりを表現する隣接行列データと呼ばれるデータの解析は、ネットワークの持つ特性を理解することに活用される。そのため、複雑なネットワークや関係データに対する解析技術が、一層求められてきている。

日本電信電話株式会社（以下、NTT）は、ネットワークやグラフを含む関係データ（例：ユーザの商品購買歴などの行列データ）解析のための機械学習技術として、事前にモデルの構造やパラメータが与えられない場合でも、これらをデータ駆動的（※1）に最適化して学習し、データをクラスタリングする手法を実現した。

ネットワークやグラフなどの二次元配列データを、互いに類似するデータが集まっている長方形の領域（長方形クラスタ）に分割することは、データ解析の基本的な手法の一つである。

NTT、複雑なデータを柔軟に分類できる機械学習技術を実現 — 行列データのクラスタリング解析

同成果では、任意のサイズの関係データを長方形分割によってクラスタリングする際に、長方形分割の候補となるあらゆる組み合わせパターンを生成できる新しい確率的生成モデル（※2）と、最適な長方形分割をデータに合わせて調整しクラスタリングする効率的なデータ解析法を構築した。

従来、ネットワーク・関係データからのデータ駆動型の長方形分割クラスタリング手法の多くでは、解析の結果得られる組み合わせ候補に何らかの制約を設ける必要があった。

例えば、候補を生成する際に、サイズが不規則な碁盤の目のように、格子状の領域に限って分割する手法（regular grid partitioning）や、データを大きなサイズの長方形に分割したのちに段階的に小さなサイズの長方形に分割するような手法（階層的分割hierarchical partitioning）が提案されている。しかし、これらの手法では、生成できない組み合わせ候補が存在する。

一方、提案する手法では、あらゆる長方形分割の候補を生成できることが理論的に保証されているという。NTTでは同等の能力を持った解析技術を2014年にも提案しているが、実装が非常に複雑かつ多くの計算時間が必要だった。

今回の手法では2014年の手法と比較して実装が大幅に簡単になり、ベンチマークデータ課題に対する計算速度は2014年の手法を上回ることが実験的に確認されているという。例えば、入力データの要素数が250,000のとき、提案手法では2014年の手法に対し、同等の予測精度に達する計算時間が約半分に短縮された。

同手法は、入力データに対して、あらゆる長方形分割クラスタリングの候補をベイズ推論（※3）することによって解析結果を得ることができる。したがって、この手法を用いたデータ解析では、事前にモデルやパラメータに特定の条件を与える必要がない。

同成果のポイントは、二次元配列（行列）の長方形分割に対して、任意のサイズの行列に対してあらゆる長方形の組み合わせ候補を生成できる、新しい確率的生成モデルを発見したことにある。その確率的生成モデルの構成にあたっては、組み合わせ論（※4）の世界で発見された長方形分割の重要な性質を利用している。

長方形分割は、一見すると図形の操作を扱う幾何学的な問題のように捉えられるが、以下の手続きによって数字列の操作を扱う代数的な問題にすり替えることができる。長方形分割において、各長方形クラスタのサイズを不問とすると、それは見取り図分割と見なすことができる。

さらに、この見取り図分割の各長方形クラスタに対して特別な手順によって数字を割り当てると、各見取り図分割に対して一意に定まるバクスター順列と呼ばれる特別な数字列を一対一に対応させることができる。結果として、ありとあらゆる長方形分割が、バクスター順列と各長方形クラスタのサイズという二つのパラメータを表す数字列によって過不足なく取り扱うことができるようになった。

同成果では、先述の長方形分割、見取り図分割、バクスター順列の間の関係を利用して、データ解析へ適用可能な長方形分割の確率的生成モデルを構成した。NTTはまず、あらゆるバクスター順列を過不足なく取りつくすことのできるような確率的生成モデルを構成し、次にバクスター順列に対応する見取り図分割から長方形分割へ変換するための確率的なアルゴリズムを構成した。

結果として、任意のサイズのデータに対する長方形分割クラスタリングにおいて、同成果において提案する確率的生成モデルが、あらゆる組み合わせ候補を生成できることを理論的に保証できた。この確率的生成モデルは、モデル自身の構造やパラメータをデータ駆動的に調整して、入力されたネットワーク・関係データを最適にクラスタリングできるという。

ネットワーク・関係データに対するデータ駆動型の解析技術は、近い将来、様々な機械学習・人工知能技術へ積極的に導入されていくことが期待されるとのこと。

例えば、ソーシャルネットワーキングサービスから得られる複雑で大量のデータの解析において、エンジニアによる学習モデルの高度な調整を補助するような活用が考えられる。また、ニューラルネットワーク深層学習における学習済みネットワークからの知識獲得や、データ・アプリケーションに最適なネットワーク構造の設計を補助する場面での利用可能性もある。

さらに、複雑なデータに対するデータ駆動型の解析技術は、より長期的な機械学習・人工知能の研究開発の発展において、人間の能力に迫り、また人間を超えるような人工知能の実現へ向けて今後より一層その重要性が増していくと考えられる。

例えば、現在、ニューラルネットワーク深層学習技術は、様々な課題において人間に迫る能力を示すようになりつつある。そのネットワーク構造は、当初、人間の神経細胞ネットワークからの類推で設計されていたが、徐々にデータ・アプリケーションに応じた固有の構造に発展しつつある。データ駆動型のデータ解析技術は、モデル構造自身をデータから積極的に学習できる。

※1　データ駆動型：データを元にアクションを決めたり、意思決定を行ったりすること。
※2　確率的生成モデル：データにおけるノイズや観測における不確かさなどの統計的な揺らぎを機械学習に反映する手段として、データを生成・観測する過程を確率的な揺らぎを含めてモデル化する方法が統計的機械学習として広く研究開発されている。
※3　ベイズ推論：あらゆる長方形分割クラスタリングの候補に対して、それぞれが入力データをどの程度尤もらしくモデル化できているかを計算することによって、入力データに混在するノイズやなんらかの不確かさを考慮しつつ行うデータ解析法。
※4　組み合わせ論：数学の一分野で、特になんらかの条件・制約を満たす対象の集まり・集合を研究する領域を組み合わせ数学や組み合わせ論と呼ぶ。

IoTNEWS編集部

IoTに関する様々な情報を取材し、皆様にお届けいたします。

企業向けAI活用虎の巻

生成AI活用ガイド