株式会社ディー・エヌ・エー(以下、DeNA)は、スマートフォンでリアルタイム音声変換を行う生成AI技術を開発した。
今回発表されたリアルタイム音声変換AIは、音声を受け取るAIと、変換音声を出力するAIで構成されており、これらがリアルタイムで動くようにチューニングされている。
これまで、エッジデバイスと称されるスマートフォン上では、AIを動かすための計算量を担保できず、特にリアルタイムで動かすことが困難であった。また、高い品質で、なるべく低遅延にするためには、従来、高価なGPUを搭載したPCが必要であった。
そこで今回、計算量を小さくする技術を独自開発することで、遅延100ミリ秒未満のリアルタイム性を維持しながら、スマートフォン上で動作させることができたのだという。
スマートフォン上で動作するほか、オフライン環境で動作するため、音声変換をするためにクラウドサーバと通信する必要がなく、プラグイン形式で様々なサービスのアプリやプロダクトに組み込むことが可能になる。
これにより、音声変換をしたいとき、別個に準備が必要だったPC向けソフトウェアや専用機器、それらのアプリへの統合をユーザに求める必要がなくなる。
また、多種多様な声への変換することができるため、ビジネスニーズに応じて新たな種類の声を追加することも可能だ。例えば、ゲームやライブ配信といったサービスでは、特定話者だけでなく誰でもなりたい話者の声になれることを目指しているとしている。
他にも、社会課題解決領域では、たとえばインターホン越しの会話において、居住者の情報を秘匿することで防犯に役立てる例が挙げられている。
ヘルスケア・メディカル領域においては、遠隔医療におけるカウンセリングに適した声を活用することで、患者の心理負荷軽減に貢献できるとしている。
今後は、事業戦略に基づき、リアルタイム音声変換AIの技術開発を強化する計画だ。明瞭性や頑健性の向上、処理負荷の軽減に加え、対応デバイスの増加、動作環境に適したAIモデルやプラグインなどの開発を進める。
将来的には、声が価値となるプロダクトを運営する企業・個人に対するサービス化も視野に入れて検討を進めていくとしている。
なお、協業先の募集も現在実施している。
無料メルマガ会員に登録しませんか?
IoTに関する様々な情報を取材し、皆様にお届けいたします。