NVIDIA、「GTC 2016 ディープラーニング最新情報（画像認識、音声認識）」レポート

先日行われた「NVIDIA Deep Learning Day 2016 Spring」で発表された、「GTC 2016 ディープラーニング最新情報について」、エヌビディア合同会社エンタープライズビジネス事業部DL ビジネスデベロップメントシニアマネージャー井﨑武士氏より発表があった。

この記事では画像認識、音声認識についての内容をお届けする。

アリババグループによるディープラーニングを使った画像サーチ

アリババが提供するサービスの中で、カメラで撮った写真を元に商品を検索するサービスがあるそうだが、これまでの商品の特長抽出は難しかったという。よって今回ディープラーニングを使うきっかけになったそうだ。

ディープラーニングを使うことで、例えばファッション誌をみていて気にいった写真があれば、それをカメラで撮ったりキャプチャをして検索することもできるという。

世の中に10万種類ほどのフォントがあるという。

Adobeが提供しているDEEPFONTは、使用されているフォントが効果的なのか、新しいフォントデザインを使用するときにそれは独創性があるものか、を知りたい時などに活用されている検索機能だそうだ。フォントは微妙な違いしかないことも多いが、それらをきちんと区別できるという。

使用されているニューラルネットワークはCNN（Convolutional Neural Network）。

同社の最終的な目標は、顔の年齢を推定し肌をケアを提案していくアプリケーションを作ることだという。肌の年齢の推定はシワやシミ、くすみなど複雑な要因があるが、シワに特化した話があった。

肌年齢の推定は専門家からの意見もあるが、意見が部分的であったり様々なバイアスもかかるため一環した評価になりにくいが、第三者から見た一般的な評価を行う必要があったという。

従来手法では、まず顔の領域を認識して、認識された領域の中から目、鼻、口というパーツを認識する。そのパーツの位置が特定できれば、シワが発生する場所がわかるので、シワの領域を定義する。それを画像処理でデータに落とし込み、シワスコアを算出し年齢推定を行うそうだ。

この従来手法の問題点は、顔の領域の検出精度が不十分だったり、照明などの違いで画像処理のパラメータも一環したものを設定することができなかったという。そこでディープラーニングの取り組みがはじまったそうだ。

実際使われているネットワークは、VGG-11。実際のシワのスコアに関しては、SegNetを使ってシワマップを作る。その後、16層のVGGでRYNKLスコアを推定するという。

LINEのスタンプをレコメンデーションする機能について発表があった。

毎日新しいスタンプがリリースされるのでユーザーがログインするとスタンプがレコメンされるが、現状は売上が一番高いものが表示されているという。

しかしそれでは新しいデザインが表示されないということになるため、それをユーザーの過去の購買傾向などからレコメンしていくことに取り組んでいるという。

ネットワークは、コンボリューショナルニューラルネットワークを使用。実験の結果、売上げ高でレコメンしていた時より、今回のレコメン方法の方がよい結果になったそうだ。

ノイズキャンセルなど前処理と言われる部分や、後段の言語処理などはディープラーニングを使わないでやっているケースも多くあるというが、Deep Speechという音声認識はエンドツーエンドで、全てディープラーニングで行っているという。

BaiduではCTCを損失関数として利用。この実装はオープンソース化されており「Warp-CTC」という名称でGitHub上に公開されている。

さらに新しいバージョンのDeep Speech2では、英語と北京語、2つの言語が認識できるという。

同社は、音声を音声データとして処理するのではなく、周波数のスペクトログラムを時系列ごとに作り、それを画像データにし、画像認識として分類を行っているそうだ。

今回、アメリカ国立標準技術研究所（National Institute of Standards and Technology, NIST）が行ったLanguage Recognition Evaluationというコンペティションにチャレンジした内容をGTCでも発表した。

このチャレンジは6言語20方言を分類するもので、学習データセットとして500時間以上のスピーチデータが用意され、使っているデータは横軸に時間、縦軸に周波数のスペクトルを表現した256×256の2次元の画像データだという。

環境としては、NVIDIA DIGITSと学習、推論を行うGoogLeNetを使用している。今回実際に使用したデータは50万程度の学習データ、2万程度の検査データ、5万程度のテストデータで、結果としては下記グラフを参照していただきたい。

井﨑氏は「音声認識を画像で行うのは非常に面白いアプローチ。他にも音楽の曲調を分類したり、化合物の成分分析にも画像データを使った事例もある。抱えている問題をいかに簡単な事象に落とし込んでいくかがディープラーニングを使う際の重要な前処理になる」と述べた。

IoTに関する様々な情報を取材し、皆様にお届けいたします。