KDDI総合研究所、小型IoT機器で利用可能な日本語テキスト音声合成ミドルウェアを開発

株式会社KDDI総合研究所は、「日本語音声合成ソフトウェアN2（エヌツー）」をベースに、組み込みシステム向けマイクロコントローラ（マイコン）上でHMM音声合成方式（※1）を用いた省リソースかつ高品質な日本語テキスト音声合成を実現した。音声合成処理に利用するデータを小型フラッシュメモリに適した構造とすることで高速な処理を実現する独自のデータ処理技術を利用している。これにより小型のIoT機器などでも、自由な音声応答を実現できるという。

本日7月25日より、同成果を含むマイコンシステム向け日本語音声合成ソフトウェア「N2」のライセンス提供を開始。あわせて、IoT機器のプロトタイプ開発向けに「N2」Linux無償版の提供も開始された。

｢N2｣はKDDI総合研究所が独自に開発した、デバイス単体で省メモリかつ軽量に動作することを特徴とした音声読み上げソフトウェア。2011年より、「N2」TTS（※2）ライブラリSDK (Android版)の販売およびAndroid向け日本語TTSアドオン「N2 TTS」の提供が開始された。以後、2013年には「N2」iOS版の、また2015年にはLinux版、Windows版の提供開始され、改良が重ねられてきた。

｢N2｣は、携帯端末で動作するauの「おはなしアシスタント」で利用されている。さらに、KDDIの「クラウドオートコール」での音声メッセージの合成等、サーバシステムでも利用されている。

「N2」Linux無償版では、Raspberry Pi等の小型マイコンボードでも、日本語プレーンテキストの読み上げ音声をWAV(PCM)形式で出力可能。さらに、インストールやアップデート、アンインストールを簡単に行うことができるという。

※1 HMM音声合成方式：統計的な音声モデルである隠れマルコフモデル（HMM）を用いる音声合成方法で、従来の音声波形をつなぎ合わせて合成音声を生成する方法と比較し、品質を高く保ちながら必要なデータサイズを抑えることが可能。
※2 TTS: Text to Speech（テキスト音声合成）の略。

【関連リンク】
・KDDI総合研究所（KDDI Research）