マイクロソフト、NVIDIAのGPU活用で音声認識の世界記録を更新

マイクロソフトの研究者チームが音声認識の世界記録を塗り替えた。この研究では、同社が発表したテクノロジのほか、人間と同様に会話内の単語を認識できるNVIDIAのGPUアクセラレーテッドディープラーニングが利用されているという。同チームは、自動音声認識における過去最低のエラー率である5.9%を達成。これは、人間が同じ会話を認識する場合に近い精度だという。また、マイクロソフトがそのわずか1カ月前に樹立した記録から6%も向上している。

音声認識の最大の課題のいくつかは会話音声によるものだと、マイクロソフトのSpeech&Dialogリサーチグループを率いるジェフリーツヴァイク (Geoffrey Zweig) 氏は語った。「音声認識が難しくなるのは、人が話し言葉でしゃべる場合や興奮している場合、間違って言い直す場合、話題を変える場合などです。これらはすべて、会話音声の特徴です。」

同チームは、会話音声認識におけるその画期的なテクノロジをディープラーニング (具体的には、畳み込みリカレントニューラルネットワークの体系的利用) に組み込んでいる。また、最近の研究では、Long Short-Term Memory (LSTM) と呼ばれるリカレントニューラルネットワークの一種を言語モデルに採用。LSTM ネットワークには、情報をより長期的に「記憶」できるという利点があるため、ほとんどのニューラルネットワーク言語モデルよりも単語への感度が高まるという。

会話音声認識で人間と同等の精度を達成するにあたって、NVIDIAのGPUとマイクロソフトのオープンソースディープラーニングフレームワークであるCognitive Toolkit (旧称: CNTK) が重要な役割を果たした。マイクロソフトが発表したCognitive Toolkitは、GPUでの音声認識、画像認識、検索の関連性といった領域の進歩を加速させるために使用されるディープラーニング用システム。

ツヴァイク氏は「チームは、NVIDIAのTesla M40 GPUを使用することによって、いくつかの言語モデルのトレーニング時間を数か月から数週間に短縮しました。私たちが研究を進められる速度は、実験を何回行えるか、その回数に関係しているため状況が一変しました」と述べた。

パーティや街中などの実際の生活環境で音声認識の精度を上げるには、さらなる研究が必要だという。そういった場所では、音楽や、車の音、人の話し声など、さまざまな種類の背景雑音が存在することが考えられる。また、同チームは、会議での会話音声認識を向上させる取り組みも進めている。会議では、複数の話し手がマイクから異なる距離に座っていることが一般的だ。

同チームの長期目標は「音声認識」から「理解」へと移行するとだと、ツヴァイク氏は言う。これにより、デバイスが質問に答えたり、指示された内容に基づいて行動をとったりすることが可能になるだろう。

提供：NVIDIA

【関連リンク】
・マイクロソフト（Microsoft）