日本電信電話株式会社(以下、NTT)は、複数の話者や話題が混在した音声信号から、話している内容が、画像や音声などで指定した「意味」に適合する音声信号を分離抽出する技術「ConceptBeam」を考案した。
「ConceptBeam」は、複数の音声が混在した信号から、話されている内容に基づいて、目的の音声を取り出すことができる技術だ。
システムに対して、画像や音声などで興味の対象を指定しておくと、入力された混合音の中から、指定した興味の対象に適合する信号を抽出することができる。
下図の例では、ブロッコリーに関する話とバイクに関する話が混合した音声が入力されたとき、ブロッコリーの画像を手がかりとして指定すると、ブロッコリーに関して話している音声だけを選択的に抽出できる。

概念の情報は、コンピュータで扱うため、概念を数値の組で対象を表現した「ベクトル」で表しており、概念のベクトルが配置される空間を特徴空間と呼ぶ。
このような特徴空間は、「関連があることが予めわかっている異なる種類の情報」を用いて作ることができる。
例えば、下図にある写真の風景を見て、ある人が「青い空、白い雲の下に大きな風車が見えますね」と話した音声があったとする。風景を見てその場で話しているため、この画像と音声には関連があると言える。

つまり。「関連があることが分かっている異なる種類のデータ」ということになる。
これらの画像や音声を、それぞれ画像特徴抽出器、音声特徴抽出器という2つのニューラルネットワークを用いて特徴抽出を行う際、関連があると分かっているデータは互いに近くに、そうでないデータは離れるように、という基準でニューラルネットワークを訓練する。
ある程度多くの量のデータで訓練すると、情報の種類によらず、「白い」「雲」「風車」といった、同じ概念が近くに配置された空間が構築される。
これは同時に、それぞれの情報の種類に対する特徴抽出器が得られていることに相当する。
この特徴抽出器を用いると、元のデータの種類にかかわらず、そのデータに表現された概念が類似していれば類似する特徴ベクトルに変換できるようになる。
目的音声を抽出するための信号のフィルタリングには、NTTが開発した、混合音声から話し手の声の特徴に着目して、ある話者の音声を抽出することができる音源分離技術「SpeakerBeam」を応用している。
「ConceptBeam」では、新たに、指定された概念に適合する発話区間を検出し、その発話区間に対応する話者の音声を抽出する方法が考案された。

この方法では、まず、概念を指定する信号および混合音声からそれぞれ特徴ベクトルを抽出し、これらの特徴ベクトルの類似度を計算することで、混合音声のどの時間区間が指定した概念に類似しているかを検出する。
そして、検出された時間区間においてどの話者が発話しているかを検出し、この話者を表現する特徴ベクトルを抽出する。
この話者特徴ベクトルを用いて混合音声から目的音声抽出を行うことにより、指定された概念について発話している話者の音声を抽出する。このとき、話者や話題が複数であっても処理することが可能だ。
また、技術評価するために、異なるテーマを含む複数話者による混合音声を所定の重なり率で作成し、画像または音声で指定した概念に適合する音声を抽出する実験を行った。
精度評価値は、混合された元の状態に比べて目的とする信号をどの程度の精度で抽出できたかを表す数値(スペクトル歪みの改善度)だ。
その結果、下図に示されるように、混合音声に対して音声認識を行う方法(手法1)および混合音声を音源分離する手法(手法2)と比較して、「ConceptBeam」では高い精度で目的の音声を抽出できた。

今後は、信号処理やパターン処理に意味処理を導入し、多種の情報に対して興味のある情報を特定・取り出し、活用を目指すとしている。
なお、この成果は、2023年6月1日より開催される、コミュニケーション科学基礎研究所オープンハウス2023に出展される。
無料メルマガ会員に登録しませんか?

IoTに関する様々な情報を取材し、皆様にお届けいたします。