東芝、エッジデバイス上で高速に動作する音声キーワード検出機能付き話者認識AIを開発

音声認識技術の市場規模は、2024年には世界で約2兆3千億円になると予想されている。企業等では、業務効率化や人手不足の問題解決として活用が進んでおり、家庭ではユーザーが話しかけるだけで自動的にキーワードを検出して家電等のエッジデバイスの操作につなげる機器が増えている。音声による機器操作は、キーワード検出だけでなく、話者を認識して、話者に合わせて機器の動きを変更する機能も開発されてきており、今後需要が拡大するとみられている。

例えば、エアコンに向けて「エアコンつけて」と発話すると、その音声から話者を認識し、その人に合わせた温度でエアコンを起動するといった機能がある。

キーワード検出と話者認識機能を両立するには、膨大な計算が必要であり、スマートフォンのような高性能な機器か、操作するエッジデバイスをネットワークに接続してクラウド上で計算を行うのが一般的だ。身近にある機器で手軽にこのような機能を使うには、処理能力に制約のあるエッジデバイスの機能（組込みシステム）の中で高速に動作するAIが必要となる。

そこで、株式会社東芝は、処理能力に制約があるエッジデバイス上でも高速に動作する音声キーワード検出機能付き話者認識AIを開発した。同技術を家電に搭載すると、家電がネットワークに接続していなくても、3回の発話で完了する話者登録に加え、音声による操作、話者に合わせて機器の動きを変更することが可能となる。具体的な特徴は以下の通り。

キーワード検出で用いる情報の活用
音声が入力されると、キーワード検出のニューラルネットワークで周辺雑音などの影響を吸収しつつ音声処理を行うが、このニューラルネットワークの中間出力を使って話者登録・話者認識を行う。中間出力を使うことで、話者認識の際にも周辺の雑音の影響を抑えることができる。また、話者認識のための音声処理の時間を大幅に削減でき、限られた機能上で高速な動作が可能となる。
ニューラルネットワークのデータ拡張手法の活用
データ拡張手法とは少ないデータ（発話）で学習する手法の1つで、ニューラルネットワークのノード間の接続の重みをランダムにゼロにすることで、同じ話者がさまざまなしゃべり方で発話したような音声情報を模擬的に生成することができる。話者を識別するためには、AIに話者を学習させる必要があるが、この手法を使うことで、話者の発話数が少なくても話者を学習でき、話者登録時の必要発話数の削減を実現する。

同手法を各話者3回の発話を登録に用いるという条件で比較評価を行った結果、話者認識の一般的な手法であるi-vectorでは話者100名の識別精度が71％だったが、同手法では89％という結果が得られた。実際に家電等のエッジデバイスを操作する場面では、登録話者は5名から10名程度と想定されており、十分に実用性能があると考えられる。また、サーバーで計算量、処理速度の計測を行ったところ、ともに組込みシステムでも問題なく動作するという結果が得られた。