人の音声を機械的に生成する音声合成技術は、コールセンタをはじめ、公共交通機関やスマートスピーカなどに活用されている。
それらを背景に、合成音声の多言語展開のニーズが高まっているが、多言語の合成音声を生成するには、言語ごとの音声収録だけでなく、その前提として多言語を話せる話者を選出する必要があるなどの課題があり、実際の展開は難しいものであった。
そうした中、NTTテクノクロス株式会社は、いろいろな声を創ることができる音声合成ソリューション「FutureVoice Crayon」に、話者の声質を損なわずに多言語の合成音声を実現するクロスリンガル音声合成技術を搭載し、2023年1月20日から商用提供することを発表した。
今回発表されたクロスリンガル音声合成技術は、音声データと、機械学習の一種であるDNN(Deep Neural Network)音声合成のノウハウを活用し、一言語の音声から日本語、英語、標準中国語、韓国語の合成音声の生成を実現している。(2023年1月時点)
また、声の特徴を示す情報の抽出精度を向上させ、話者の声質の再現性を向上させている。
これにより、翻訳技術との連携によるプレゼンターの声での同時通訳のプレゼンテーションや、自身の声の合成音声による多言語での音声コミュニケーション、好きな声優の多言語の合成音声による外国語学習などの利用シーンが想定されている。
無料メルマガ会員に登録しませんか?
膨大な記事を効率よくチェック!
IoTに関する様々な情報を取材し、皆様にお届けいたします。