マイクロソフト、音声認識・自然言語理解など拡大を続けるAI「Microsoft Cognitive Services」

この記事はマイクロソフトのブログ記事で発表された内容である。

マイクロソフトのSkype TranslatorやBing、Cortanaにおいて会話の翻訳や知識の集約、話し言葉の理解などを実現している機械学習機能が、人々が毎日使用するサードパーティのアプリケーションでも活用されることが増えている。Microsoft Cognitive Servicesは、開発者に機械学習の知識がまったくなくても、感情検知や画像認識、音声認識、自然言語理解などの機能をアプリケーションに追加できる、25種のツールから構成される。

「Cognitive Servicesは、マイクロソフトが持つすべての機械学習とAI関連の機能を使いやすいAPIを介して公開しており、開発者はこれらのテクノロジを自分で開発する必要はありません。ほとんどの場合、最先端の機械学習モデルを構築するには、多くの時間やデータ、専門知識、計算時間を必要とします。」とワシントン州レドモンドにあるMicrosoft Research Speech and Dialog Research Group 主任研究者であるマイクゼルツァー(Mike Seltzer）氏は述べている。

音声認識のツールを例に挙げると、ゼルツァーと同僚たちは、マイクロソフトの音声認識テクノロジがノイズの多い環境でも確実に動作し、特定のユーザーグループや環境における専門用語、方言、訛りにも対応できるアルゴズムを開発するのに、10年以上を費やしてきた。マイクロソフトがパブリックプレビューとしてリリースしたCognitive ServicesのCustom Speech Serviceを通して、サードパーティアプリケーションの開発者も同じ柔軟なテクノロジを利用できるようになる。

他にもContent ModeratorとBing Speech APIの2つのCognitive Servicesが、来月に一般に公開される予定だという。Content Moderatorは、画像やテキスト、動画などのデータを隔離し、検閲することで、不快感をもたらす可能性がある言葉や画像などを排除することができる。Bing Speech APIは、音声をテキストに変換し、話し手の意図を理解した上で、テキストを音声に変換する。

画像や動画などのビジュアルデータに対してインテリジェンスを適用できるCognitive Servicesは、顧客のサービス強化に活用され始めている。たとえば、ビジネスインテリジェンスソリューションを提供するPrism Skylabsは、自社のPrism Visionアプリケーション内でComputer Vision API を使用し、監視カメラの映像からの特定の事象や人の発見を支援している。

「Cognitive Servicesは、開発者コミュニティが人工知能と機械学習の専門知識を利用できるようにし、エンドユーザーに快適で力強い体験を提供するというマイクロソフト社内の取り組みから生まれたものだと、AI and Research担当コーポレートバイスプレジデントのアンドリューシューマン (Andrew Shuman)氏は述べた。

ストーリーテリング体験

以下は、アレクサンダーメヒーア(Alexander Mejia)氏の例だ。

子供のころ、彼は常に最新のグラフィックスと技術革新を備えた最新のゲームで遊び、より良いサウンドや解像度、画面への入力テクノロジの進化から生まれる、新たな興奮を求めていた。最近、ゲーム業界でクリエイティブディレクターとして働く中で、彼は、新たな体験から得られる興奮が減りつつあると感じていた。コンピューティングパワーが倍になっても、ゲームのおもしろさは倍になっていなかったという。「次になすべきことは何なのか？ゲーマーを驚かせる新たな体験を生み出すテクノロジの進化とは何なのか？」と彼は考えた。

この疑問が、最先端のバーチャルリアリティ（仮想現実）テクノロジのデモンストレーションに繋がった。ヘッドギアを装着し、ジェットコースターによる激しい体験をすると、アドレナリンが噴出し、心の底から興奮できた。このアイデアはビジネスプランとして結実し、メヒーア氏は、バーチャルリアリティストーリー体験を作り出すために、 Human Interact を創業した。同社の主力タイトルStarship Commanderは、プレイヤーが光速より速く宇宙を移動し、出会ったすべての仮想キャラクターに話しかけることで物語が進む。

リアルで高速なアクションを実現するために、メヒーア氏たちには正確で応答性の良い音声認識機能が必要だった。

「音声認識エンジンは、誰がいつ何を言うかわからない中で、それを理解して物語を適切な方向に進めて行かなければなりません。そして、これこそが Microsoft Cognitive Services による魔法なのです」とメヒーア氏は説明する。

独自の音声認識モデルの構築

現代の音声認識テクノロジは、クラウドコンピューティングのパワーと大量のデータを活用して、音声の断片をテキストに変換する機械学習の統計モデルに依存している。例えば、音響モデルは、特定言語の音素、または音の一つとして音声の短い断片をラベル付けする分類器。ラベルは隣の断片と組み合わされ、対象言語のどの言葉が話されているのかを予測するとゼルツァーは説明する。この予測は、対象言語のすべての単語を音素に分解して格納している辞書に基づいて行なわれる。

一方、言語モデルは、予測されたすべての単語の対象言語における頻度に基づいて重み付けを行ない、予測の精度向上を図る。認識プログラムが似たような発音の複数の言葉を区別する場合には、より使用頻度が高い言葉の方に高い確率が割り当てられる。これらのモデルはさらに正確な予測を行なうために文脈も考慮する。「前の単語が、”The player caught the”であったならば、”fall”よりも”ball”の可能性が高いと判定されます」とゼルツァー氏は解説する。

マイクロソフトの最新の音声認識エンジンで採用された音響モデルは、人間の脳内で行なわれているパターン認識の理論にヒントを得た分類器であるディープニューラルネットワークだ。このモデルは、クラウド上で稼働する高度なアルゴリズムを使用し、何千時間分の音声を学習している。最近、マイクロソフトの音声認識システムは、会話内の単語を人間と同じレベルで認識するというマイルストーンを達成した。これは、20年以上にわたり、学会や産業界の研究者が使用してきた標準的なベンチマークで達成された。

「たとえ同じシステムでも、騒々しい工場の環境を学習していなければ、適切な認識を行なうことができません。Custom Speech Serviceが有利なのはこの点です」とゼルツァー氏は述べる。

このサービスにより、開発者は、音響モデルと言語モデルを、騒がしい工場で行なわれる専門用語の会話向けにカスタマイズすることができる。例えば、音響モデルを、油圧やドリルの騒音の中でも音声を認識するよう学習させることができ、言語モデルを工場に特有の用語（たとえば、ナット、ボルト、自動車の部品名）に高い優先順位を与えるよう更新できるという。

Custom Speech Service は、マイクロソフトの既存の音声認識プログラムを開発者が提供するデータで学習させるアルゴリズムを活用している。大量のデータで学習済みのモデルから始めることで、必要なアプリケーション固有のデータ量を大幅に削減できる。開発者のデータだけで不十分な場合には、認識プログラムは既存モデルを流用する。

「基本的な考え方は、システムの集中化が進むほど、パフォーマンスは向上することです。Custom Speech Serviceの仕事は、利用者にとって最も重要なデータにシステムを集中させることにあります」とゼルツァー氏は説明する。

バーチャルリアリティに向けたカスタマイズ

前述のHuman Interactの主力タイトルStarship Commanderは、架空の言葉や地名を含むSFの世界が舞台。メヒーア氏が、これらのキーワードを使ってCustom Speech Serviceを学習させている時、彼は、初期プロトタイプ構築で使用していたオープンソースの音声テキスト変換ソフトウェアと比較して、エラー率が半分であることに気づいた。

次に、メヒーア氏は、もうひとつの課題、つまり、ゲームプレイヤーの意図を理解するという課題の解決のために、マイクロソフトのLanguage Understanding Serviceに目を向けた。

「”let’s go”を意味する多くの言い回しがあります。”let’s go”や”autopilot”、”get me out of here”、”let’s go faster than light”、”engage the hyper-drive”などです。これらは、みなゲームの中で移動する時に人々が発する言葉です。急いでピンチから脱出しなければならない時は、興奮した状態で言葉が発せられることもあります」とメヒーア氏は説明する。

現在パブリックプレビュー中のLanguage Understanding Serviceは、ユーザーが発声する可能性がある言葉の一部を開発者がアップロードし、その言葉に意図をタグ付けすることで、機械学習モデルの分類器に自然言語中の意図を理解するよう学習させることができる。

このサービスのバックエンドには、限定的なデータで分類器を学習させることを目的とした10年以上にわたる研究成果を活用していると、サービスの開発を統率するエジプトカイロの Advanced Technology Lab ディレクター、フセインサラマ(Hussein Salama)氏は説明する。

「通常、適切なテクノロジを選び、適切なデータを提供して、分類機能を学習させ、評価することは機械学習の専門家が必要です。マイクロソフトは、これをLanguage Understanding Serviceにより単純化しました。いくつかの音声、そして、いくつかのフレーズとの意図との関係を提供すると、Language Understanding Servic はその意図に対して高精度なモデルの学習を始めることができます」とサラマ氏は述べている。

Starship Commander において、カスタマイズの作業はシームレスに進み、学習データに含まれていない自然言葉の意図をサンプルから学習させることができた。「今までに学習させたことのないことを適切に理解してくれるのには、恐ろしくもなります。まさに人工知能です」とメヒーア氏は語っている。

【関連リンク】
・マイクロソフト（Microsoft）