コールセンタなどでは、電話応対業務の品質向上に向け、音響モデル・認識辞書・言語モデルを活用し、音声の自動認識や通話のモニタリング機能、生成AIを活用した要約生成などの音声認識サービスが活用されている。
音声認識には、安定した通話環境や明瞭な発話が不可欠だが、コールセンタへ問い合わせする顧客の通話は周囲の雑音など品質にばらつきがある上、話し言葉やくだけた表現が使われるため、音声の認識精度の向上が難しいとされていた。
こうした中、NTTテクノクロス株式会社は、コールセンタAIプロダクト「ForeSight Voice Mining(フォーサイト・ボイス・マイニング)」(以下、FSVM)に、人間に近い情報処理機構を実現した「次世代メディア処理AI」を連携し、音声認識の精度を向上させた新バージョンを、2024年8月30日より提供する。
「FSVM」は、音声認識技術や感情分析技術、言語解析技術を活用したコールセンタAIプロダクトだ。音声認識はNTTの研究所の技術を元に、通話内容のテキスト化や要約を行っている。
また、通話内容に応じたマニュアルの自動表示、通話のモニタリング機能などにより、コールセンタや自治体などにおける電話応対業務の応対力向上を支援する。
今回、「FSVM」にNTTの研究所が開発した「次世代メディア処理AI」を連携することで、従来よりも少ないデータ量で精度向上が可能となったほか、音声データ入力からテキスト出力までをオールインワンで実現する「End-to-End音声認識技術」により、高精度な音声認識を実現した。
コールセンタの実通話データを用いた認識精度の検証では、顧客側の発話内容の音声認識率が最大9%向上するなど、話し言葉やくだけた表現なども認識することができたのだという。
今後NTTテクノクロスでは、認識テキストと「次世代メディア処理AI」から得られる感情情報を組み合わせた通話情報の見える化や、認識テキストと生成AIを組み合わせたより高度な機能の提供を目指すとしている。
無料メルマガ会員に登録しませんか?
IoTに関する様々な情報を取材し、皆様にお届けいたします。