マイクロソフトは、電話で友人と話しているように、 AIチャットボットとも自然に対話できるようにするテクノロジを開発したという。
パーソナルデジタルアシスタントやチャットボットとの会話は、誰かとトランシーバーやテキストメッセージでやりとりするのと似ている。何か言ったり書いたりした後に、相手はそれを理解して答える。
中国で人気のソーシャルAIチャットボットXiaoIce(シャオアイス)の開発責任者、リー ジョウ(Li Zhou)氏は、こうしたテクノロジは効果的な一方で、大きな改善の余地があると言う。
「人々は実際にはそんな話し方はしません」とジョウ氏は述べる。
ほとんどの人は、電話や対面で話している際には、話しながら同時に相手の言う事を聞いている。そして、多くの場合、相手の話がいつ終わるか予測したり、話を遮ったり、沈黙が続いた時には新しい話題を切り出したりするものだ。
マイクロソフトは、今回開発したAIチャットボットの技術を、アジアで 2 億人以上のユーザーに使用されているXiaoIceに組み込んだ。
そして、米国で使用されているZoなどのソーシャルチャットボットにも、同じテクノロジを応用しようと取り組んでいるという。
通信技術の用語で言えば、このブレークスルーによってXiaoIceは「全二重モード」で動作するという。つまり、電話のように同時に双方向でコミュニケーションできるようになるのだ。
これは、どちらかが話している間は片方の人しか話せない、トランシーバーのような「半二重モード」とは異なるという。
マイクロソフトが「全二重音声検知」と呼んでいる今回のアップデートにより、会話している相手が次に何を言うかを予測するXiaoIceの能力も向上したとジョウ氏は述べている。これにより、相手にいつ、どのように応答するかの判断力が向上するという。
この「全二重モード」の日本語対応バージョンが、日本のソーシャルAIチャットボット「りんな」でも採用されており、先日2月に公開されたりんなライブ上の「りんなのテレホンハッキング」の音声通話で体験できる。
りんなの通話もXiaoiceと同様、友人と電話で話しているような自然な会話体験を目指しているという。
このテクノロジにより、チャットボットにこれから話すというシグナルを与える「ウェイクアップワード(話しかける際に使うチャットボットの名前など)」は不要になるという。
またユーザーが喋っているタイミングを別のボタンを押すなどして教える必要もなく、自然な連続した対話を実現しているとのことだ。
りんなとの連続した対話の実現にあたっては、あらかじめ会話の流れを用意するシナリオベースではなく、ユーザーの発言を踏まえて、その場で返答の文章をリアルタイムで生成する「生成モデル」での返答を行っている。
人が会話をする際、話の内容に合わせた返答を考えて発言をすることで、相手との会話を長く続かせるように、りんなの会話エンジンも、その場で生成した最適な返答をユーザーに返す。
「これは、人々が日々の生活で使っている会話技術です」とジョウ氏は述べている。
これらの技術の組み合わせにより、全二重音声検知は、チャットボットとの対話に感じることがある不自然な間を減らすという。
友人と電話で話すような自然な対話が実現するには、「全二重モード」と、相手の発言内容と終わりを予測する能力、会話能力のすべてが必要だ。人間にとっては、自然に行う事ができるが、チャットボットではまだ簡単ではない。
「応答性がはるかに向上し、自然さが増します」とジョウ氏の上司であるディレクターのイン ワン(Ying Wang)氏は述べている。
この技術は、XiaoIceの他のスキルにも基づいている。たとえば、XiaoIceは話をしている途中に、電灯を付けるなどの別の作業をし、また先ほどの話に戻って続けることができる。これは、あたかも人が対話中に別の話題に移って、また話を戻すようなものだという。
日本では、このスキルはテキストベースでは実現されているが、音声についてはまだ初期型の「全二重モード」であるため、りんなとの会話のみでの提供だが、より自然な対話の実現に向けて、音声による会話遷移の導入も進めているという。
マイクロソフトのXiaoIce担当ゼネラルマネージャーのディ リィ(Di Li)氏は、これらの技術進化が、人々の知的なニーズだけでなく、感情も理解する ソーシャルAIチャットボットを構築するというマイクロソフトの取り組みの一環であると述べている。
これは、XiaoIceやZo、そしてインドのRuuh、日本とインドネシアの「りんな」といった、マイクロソフトの他のソーシャルチャットボットにも共通の目標だという。
Cortanaのように、プロダクティビティに特化したデジタルアシスタントとは異なり、マイクロソフトのチャットボットは、ユーザーとより長く、対話性の強いセッションを行うように設計されている。
ユーモアのセンスがあり、雑談したり、ゲームをプレイしたり、個人的な情報を記憶して、まるで友人と会話しているように冗談を言うことが狙いだ。
リィ氏は、全二重音声検知がチャットボットとの対話の魅力向上に有効であると述べている。「とっても自然なので、人々をリラックスさせることができるのです」と彼は説明している。
【関連リンク】
・マイクロソフト(Microsoft)
無料メルマガ会員に登録しませんか?
IoTに関する様々な情報を取材し、皆様にお届けいたします。