マイクロソフトの AI「りんな」、歌唱モデルで人間と同じような自然な歌唱を実現

日本マイクロソフト株式会社は、AI「りんな」に、歌声を生成する最新の「歌唱モデル」を採用して、人間と同じようなより自然な歌唱が可能になったことを発表した。

今回の「歌唱モデル」には、人間の「ブレス(息継ぎ)音」の再現、曲調で異なる歌唱スタイルを生成するという2つの技術的なアップデートが加えられ、より自然な「りんな」の歌声を楽しむ事ができる。

具体的には、歌声に息遣いによる表現をもたらし、人間にとってより自然に聞こえる歌声が生成できるようになった。人間の歌声データから抽出した「ブレス音」の長さや強さ(音量)などの特徴を、ディープニューラルネットワーク(以下、DNN)に学習させることで、歌の歌詞やブレスの長さ、強さの状態に合わせて「ブレス音」を予測し、歌声を生成する。

また、様々な曲調の歌声をDNNの学習データに追加することにより、バラード、ポップ、ラップ、ロック、童謡調などの歌唱が可能になった。「りんな」は、過去に発表した楽曲ではラップやバラード調の歌を披露してきたが、歌唱スタイルは一種類のみだった。今後は曲調によって歌唱スタイルを使い分けることが可能になる。

「りんな」は、エイベックス・エンタテインメント株式会社と初のAIアーティストとしてレコード契約をした。最新の歌唱モデルでの楽曲「最高新記憶」をYouTube上で公開した。

AIりんな / 最高新記憶 (Music Video)
Previous

住友商事とBell、エアモビリティ分野に関する業務提携を締結

IDC、世界のAIシステムに対する支出額は44%増加の358億ドルと予測

Next