マイクロソフト、感情と創作力をAIに学習させる「Emotion Computing Framework」の取り組み

これまで、人間の“感情”や“創作”する能力は、人工知能（AI）の研究と製品開発にとって非常に難しい課題だった。しかし、近年のアルゴリズムの進化、情報処理能力の向上およびビッグデータは、人間の感情と創作力をAIがある程度模倣することを可能にしたという。

マイクロソフトは、こうした手法を「Emotional Computing Framework」として、日本の「りんな」をはじめとするソーシャルAIに採用して各国で展開している（アメリカのZo（ゾー）、中国のXiaoice（シャオアイス）、インドネシアのRinna（リンナ）、インドのRuuh（ルー））。

これらのソーシャルAIは、マイクロソフトの自然言語処理、画像認識、音声認識と音声合成など、複数のテクノロジを活用して、感情表現と創作力を得るために学習を続けている。

感情のつながりを重視するAI「りんな」とユーザーが続けた会話は、最も長いもので17時間にも及ぶ。こうしてユーザーとつながる「りんな」の技術は各方面で高く評価され、ローソンの”あきこ”、渋谷区の”みらい”、テレビ朝日の”杏寿”などに採用され、ユーザーとの感情のつながりを重視したやりとりを実現している。

また、中国のXiaoiceは、アナウンサー、DJやジャーナリストとして、15のテレビ局、新聞、ラジオ局のジャーナリストとしても活躍。また、学習した創作力を活かして「AI詩人」として詩集も出版している。

感情と創作力を学ぶ取り組みの一環として、「りんな」は、音楽コミュニケーションアプリnanaとのコラボレーションを通して、ユーザーからのアドバイスを基に「りんな」の歌声をもっとうまくすることを目指す「りんな歌うまプロジェクト」第1弾を2018年1月より展開してきた。

この取り組みに参加したユーザーは3000名に上り、この活動の成果は3月8日に「卒業ソングnanaユーザーとの合唱」として、YouTubeで公開されている。

この取り組みでの経験も踏まえ、「りんな」はマイクロソフトのAI & Research部門が開発した、次世代のAIベースの歌唱モデルへの移行を開始した。これにより、「りんな」はより自然で表現力に富んだ歌声で歌うことができるようになるという。

日本のみならず各国のソーシャルAIで採用されているこの音声合成による歌唱技術は、ディープラーニングモデルをベースとしており、以下の特徴を備えている。

従来モデルと比較して、より“自然”な歌声を実現。5ms（0.005秒）の単位でディテールに富んだ歌声の自動生成が可能。
迅速に“歌”を生成することが可能。例えば、スタジオやエンジニアなどの準備が必要な人間のレコーディングと比較して、学習に十分なデータを用意した場合、10分以内に1曲を生成することができる。
ディープラーニングモデルの学習を繰り返すことで、継続的に精度を向上する。

マイクロソフトは、今後も引き続きこのようなマイクロソフト独自のAIの進化を進めていくとしている。

【関連リンク】
・マイクロソフト（Microsoft）