NTT、声の特徴に基づき聞きたい人の声を抽出するAI技術を開発

日本電信電話株式会社（以下、NTT）は、複数の人の声が混ざった音声から、目的話者の声の特徴に基づき、その人の声だけを選択的に抽出する技術SpeakerBeam（※1）を開発した。

同技術は、様々な声や雑音が聞こえている環境において、目的話者の声の特徴やその位置だけに注目して、その声を聞き取る人間の聴覚の能力「選択的聴取（※2、トップ画像参照）」と同等の機能を実現したことに相当するという。

選択的聴取のうち、話者の位置に注目して声を聞き取る能力（※3）は、すでにコンピュータでも実現されていたが、目的話者の声の特徴に注目して聞き取る能力は、これまでに例がないという。

今回、NTTが独自開発したディープラーニングの新技術を用いて、この実現に成功したという。

背景

近年、コンピュータによる自動音声認識技術が急速に発展し、スマートホンやスマートスピーカなどの音声インタフェースで利用されるようになってきた。

しかし、日常の様々な場面では、複数の人が会話をしていたり、テレビの音声が背景で流れていたりするなど、目的話者以外の声が混ざって収録されることが、しばしば起きる。

現在の音声認識技術では、目的話者だけに注目してその声を聞き取ること（選択的聴取）ができないため、このような状況にうまく対応することができなかった。

研究の成果

NTTコミュニケーション科学基礎研究所は、図2に示すように、複数の人の声が混ざった収録音を入力音声として受け取り、その中から目的話者の声のみを抽出する技術 SpeakerBeam を開発（※4）。

SpeakerBeam では、目的話者の声を識別できるようにするために、入力音声とは別に収録した目的話者の声（約10秒程度以上）を補助情報として利用。そして、補助情報から抽出した声の特徴に基づき、その特徴に合致する音声を収録音から抽出する。

SpeakerBeam は、収録音にどんな音が含まれているかに依らず、目的話者の声の特徴のみに注目して、その特徴に合致する音声を抽出。マイク1本でも処理が可能なのに加えて、より多くのマイクが利用できれば、さらに品質の良い音声の抽出ができるという。

複数の話者の声を混合した入力音声を用いたシミュレーション実験により、SpeakerBeam は、音の聞き取りやすさを改善し（図3左参照）、音声認識精度を60％改善する（図3右参照）ことが確認されている。

技術のポイント

（1）目的話者の声の特徴に基づく選択的聴取

人の声には、声の高さ、声質、抑揚、強勢、音長、リズムなど、様々な個性がある。人の聴覚は、これらの個性の違いに基づき、混ざっている声の中からでも、特定の話者の声の特徴に注目して（かつ、その他の音は無視して）、目的の声を聞き取ることができる。

特に、一度でも、その人の声を聞くことで、瞬時にその特徴を理解し、その声を聞き分けることができるようになる。同技術は、この能力と同等の機能をコンピュータで実現したという。

人の声の特徴は、前記の各要素が複雑に絡み合って形成されている。このため、声の特徴のどの部分に注目すれば、選択的聴取が実現できるかは、明らかではない。

同技術では、後述の深層学習の新技術を用いて、声の特徴の抽出方法、および、声の特徴に基づく声の抽出方法の両方を、データから同時に学習する仕組みを構築。その結果、比較的短い発話からでも声の特徴を抽出し、選択的聴取が行えるようになった。

選択的聴取とは対照的な能力を実現する技術に、音源分離がある。音源分離は、収録音に含まれている話者の数が既知であるとの前提の下で、何らかの音の特徴（音の到来方向など）に基づき、収録音を話者数と同じ数の音に分解する技術だ。

すべての音を取り出せる利点がある一方で、話者数の情報が必要、すべての話者の位置や雑音の統計量の推定が必要、分離音のどれが目的話者かの推定が必要などの課題がある。このため、現時点では、その適用範囲は必ずしも大きくないという。

これに対し、SpeakerBeamによる選択的聴取では、目的話者の声に注目して、その特徴に合致する音を取り出すというシンプルな処理で、目的話者の声の抽出を実現できるという。

（2）SpeakerBeamのための深層学習の新技術

SpeakerBeamの実現のために、図4に示した構造を持つニューラルネットワークを考案。主ネットワークと、補助ネットワークの二つで構成されており、それぞれ、以下の機能を実現する。

主ネットワークは、入力音声を受け取り目的話者の音声を出力。多層のネットワークからなり、その中に、適応層と呼ばれる特別な層を含んでいる。適応層は、ネットワークの制御情報として、補助ネットワークが抽出した目的話者の声の特徴を受け取り、その特徴に合わせて、目的話者の声の抽出ができるように処理を変更する仕組みを持つ。
補助ネットワークは、入力音声とは別に収録した目的話者の声を補助情報として受け取り、多層のネットワークを用いて、その声の特徴を抽出して出力する。

SpeakerBeamでは、上記の二つのネットワークを組み合わせた状態で用いた時に最適な選択的聴取が実現できるように、多数の話者や背景雑音を含む大量の学習データを用いて、各ネットワークの処理を事前学習する。

その結果、学習に含まれていない目的話者に対しても、選択的聴取が行えるようになるという。

NTT、声の特徴に基づき聞きたい人の声を抽出するAI技術を開発 — 図2：SpeakerBeamによる声の選択的聴取

※1　SpeakerBeam：

聞きたい人の声の特徴に注目して、その人の声を選択的に抽出するNTT音響処理技術の技術名称。

特定の方向に音の指向性を向けて、その方向から到来する音を抽出する複数マイク処理技術をビームフォームと呼ぶのになぞらえて、特定の話者の特徴に注目して、その特徴に合致する音声を抽出する同技術をSpeakerBeam と名付けたという。

※2　選択的聴取：

多数の音が聞こえている状況で、興味のある音だけに注意を向け、その他の音を無視して、目的の音を聞き取る能力のことを選択的聴取と呼ぶ。

この能力を利用することで、例えば、人は、騒がしい環境にいるときでも、話し相手の声だけに集中して会話をすることができる（この能力は、カクテルパーティ効果とも呼ばれている）。

SpeakerBeam は、この能力に相当する機能をコンピュータで実現。背景音の状態（どんな音がいくつ含まれているかなど）に依らず、目的話者の声の特徴に注目して、その声を抽出することができる。

※3　音の到来方向に基づく音声抽出：
収録に用いられるマイクから見て、目的話者の声が到来する方向が分かっている場合、その方向にマイクの指向性を向けることで、混ざった声の中からその声だけを抽出することが可能。

また、目的話者の方向が分からなくても、同時に話している話者やその他の音源の数が分かれば、音源分離を用いて、収録音からすべての話者や音を分離できる。

しかし、多くの日常的な場面では、話者の位置を定められなかったり、背景でいつどのような音声や音が生じるかは予期できなかったりすることがある。

また、仮に、すべての音声が分離できたとしても、目的話者の声を聞き取るためには、さらに、どれが目的話者であるかを推定する必要がある。

これに対し、SpeakerBeam では、音の到来方向に基づく方法と違い、話者の位置や、目的話者以外に話している人の数、その他の音の状態などに依存せずに、目的話者の声のみを抽出することができる。

このため、話者がどこで話すかわからない、また、予期できないタイミングで他の音声や様々な音が混在するような状況にも、対応することができる。

※4　研究協力の状況
同成果の一部は、Brno University of Technology との共同研究によるものだ。