株式会社アドバンスト・メディアは、開発者向けボイステックプラットフォーム「AmiVoice Cloud Platform」にて提供している、音声認識API「AmiVoice API」のほぼ全ての音声認識エンジンに、ディープラーニング技術「Transformer」を12月13日より実装した。
「Transformer」は、ディープラーニングの発展技術の一つだ。従来の音声認識エンジンAmiVoiceに実装していた、「LSTM(Long Short-Term Memory)」や「Bi-LSTM(Bidirectional Long Short-Term Memory)」というリカレントニューラルネットワーク技術は、過去や未来の情報を記憶という形で取り入れ、現在の情報を計算していた。しかしこの記憶には、離れた時点の情報が残りにくいという課題があった。
これに対し「Transformer」は、過去や未来の各時点の情報を直接、現在の情報に取り入れて計算を行う。そのため、長い入力の離れた時点の情報にも利用でき、高い認識率を実現することが可能だ。
今回、「AmiVoice API」のほぼ全ての音声認識エンジンにこの「Transformer」を実装。「Bi-LSTM」を実装した音声認識エンジンと比較し、リアルタイム認識で最大17%、バッチ認識で最大13%のエラー改善率となった。
「AmiVoice API」の全ラインアップ(同期HTTP音声認識API、非同期HTTP音声認識API、WebSocket音声認識API)で利用可能だ。
無料メルマガ会員に登録しませんか?
膨大な記事を効率よくチェック!
IoTに関する様々な情報を取材し、皆様にお届けいたします。