富士通研究所、教師データなしで高次元データの特徴を獲得できるAI技術「DeepTwin」を開発

近年、様々なビジネスの領域において、膨大かつ多様なデータをAIで解析する需要が急増している。

例えば、ネットワーク経由の通信アクセスにおいては未知の不正アクセスによる攻撃が問題となっているが、膨大な通信アクセスデータから通常とは挙動が異なる不正アクセスを教師なし学習で自動的に検知する仕組みが求められている。また、甲状腺数値や不整脈データなどの医療データでは、異常データの症例が少ない上にバラつきが大きいことから、異常データの検知をAIでサポートすることが期待されている。

数学における空間の広がりを示す指標である次元は、私たち人間が生活しているx（幅）、y（高さ）、z（奥行）の3方向の広がりを表す3次元の空間のほか、点のみの空間である0次元から通信データのような数十次元、画像データのような数百万次元などさまざまなものが考えられる。

多くの業務で用いられるデータは、高次元データであり、データの次元数が増えるとデータの特徴を正確に捉えるための計算の複雑さが指数関数的に増大してしまうことが「次元の呪い（※1）」として知られている。

これを回避する手法として、ディープラーニングを使って入力データの次元を削減する手法が有望とされているが、削減した後のデータ分布や発生確率を考慮せずに削減していたため、データの特徴を忠実に獲得できておらず、AIの認識精度の限界や誤判定が発生するといった問題があった。これらを解決し、高次元データの分布・確率を正確に獲得することが、AI分野における重要な課題の一つとなっている。

富士通研究所、教師データなしで高次元データの特徴を獲得できるAI技術「DeepTwin」を開発 — 従来の課題（異常検知の例）：定量的な裏付けのない経験的な手法のため、誤った判定が発生

株式会社富士通研究所は、AIによる検知・判断における精度向上に向け、高次元データの分布・確率などの本質的な特徴量を正確に獲得するAI技術「DeepTwin」を開発した。同技術は、富士通研究所は情報通信分野において長年培ってきた映像圧縮技術の知見とディープラーニングを融合させることで、高次元データの削減すべき次元数と次元削減後のデータの分布をディープラーニングで最適化し、データの特徴量を正確に抽出する。同技術の詳しい特長は以下の通り。

データの特徴を正確に獲得する理論の証明

数千から数百万次元の高次元データである画像や音声データの情報圧縮では、長年の研究でデータの分布や発生確率が解明されており、これらの既知の分布や確率に対して最適化された離散コサイン変換（※2）などの手法で次元数を削減する方法がすでに確立されている。そして、次元削減後のデータの分布と発生確率を用いてデータを復元すると、元の画像・音声と復元後の画像・音声との間の劣化を一定に抑えた時に、圧縮データの情報量を最も小さくできることが理論的に証明されている。

今回、この理論から着想を得て、通信アクセスデータや医療データなど、分布・確率が未知の高次元データに対し、その次元をニューラルネットワークの一つであるオートエンコーダ（※3）で削減した後、また復元したときに元の高次元データと復元後のデータとの間の劣化を一定値に抑えつつ次元削減後の情報量を最小化したデータは、元の高次元データの特徴を正確に捉え、かつ、次元を最小限に削減できていることを数学的に証明した。

ディープラーニングを用いた次元削減技術

一般にディープラーニングは、最小化したい評価項目を定めると複雑な問題でも評価項目が最小となるパラメータの組合せを求めることができる。この特徴を利用して高次元データの削除すべき次元数と削除後のデータの分布を制御するパラメータを導入し、圧縮後の情報量を評価項目に定め、ディープラーニングで最適化した。
これにより、数学理論に基づいて最適化されたときの次元を削減したデータの分布および確率は、データの特徴を正確に捉えることが可能となる。

今回、同技術をデータマイニングの国際学会「Knowledge Discovery and Data Mining（KDD）」が配布している通信アクセスデータ、およびカリフォルニア大学アーヴァイン校が配布している甲状腺数値データ、不整脈データといった異なる分野での異常検知のベンチマークで、従来のディープラーニングベースの誤り率と比較して最大で37%改善することに成功した。