マイクロソフトの AI ビジョン、長年の研究活動に根ざし、会話にフォーカス

マイクロソフトは、25 年以上にわたり、AI の可能性に投資してきた。そして、新しいチャットボットの Zo、Cortana デバイス SDK と Skills Kit、そして、インテリジェンスツールの拡張によりそのビジョンが実現しつつある。

12 月 13 日にサンフランシスコで開催された AI に関する小規模な会合で、マイクロソフトの Artificial Intelligence (AI) & Research Group エグゼクティブ バイスプレジデントのハリー シャム(Harry Shum)は次のように述べている。「複数の業界標準ベンチマークにおいて、マイクロソフトの画像認識アルゴリズムは業界他社を凌駕しました。さらには、人間すらも上回っています。しかし、私にとってより興味深いことは、マイクロソフトのビジョンが HoloLens などの製品や AI を活用したアプリを構築している Uber などのお客様によって具体的成果を上げているということです。」

1991 年に Microsoft Research を設立した時、ビル ゲイツ(Bill Gates)は、いつかコンピューターが人間のように見たり、聞いたり、理解できるようになるというビジョンを持っていた。そして、このビジョンこそが世界の最も優秀な人々をこの研究組織へと惹きつけてきた。

10 月に、マイクロソフトは、業界で初めて音声認識で人間と同等の成績を達成した。 9 カ国語をサポートする Skype Translator も功績を達成している。これは、研究開発から製品への移行が加速している実例だ。Skype Translator により、マイクロソフトは、世界中の人々がリアルタイムで会話をし、互いを理解できるようにした。では、対面型のリアルタイム自動翻訳という夢についてはどうか?

新しい言語と音声認識機能を採用した Microsoft Translator は、複数の言語で話すグループの間を、リアルタイムで、対面型で同時通訳できるようになり、言語の障壁を取り払って人々を結び付けられるようになった。

マイクロソフトは、ナレッジグラフも構築している。Bing と Office 365 における取り組みにより、人々、場所、物といった数十億のエンティティ(Entities)を理解することが可能になっている。この「世界のナレッジ」を人々の「仕事のナレッジ」に結び付ける機会が生まれている。

エージェント、アプリケーション、サービス、インフラの領域で真の意味での人工知能を持つシステムを構築するというマイクロソフトのビジョンは大胆で広範囲にわたる。また、このビジョンは包括的でもある。マイクロソフトは、消費者、企業、開発者を問わず、AI をあらゆる人にとってアクセス可能にし、誰もがその利益を得られることを目指している。

「マイクロソフトは常にテクノロジの民主化を目指してきました。これには2つの方向性があります。すなわち、Office 365 などの製品に AI を取り込むこと、そして、他の人々がイノベーションを行えるプラットフォームを提供することです」とシャムは述べ、自分自身のことを「元研究者の製品担当」と言い表す。

そのプラットフォームには Cognitive Services(コグニティブサービス) と呼ばれる 25 種の API が提供され、音声、言語、知識、検索の機能を提供する。

新たなイノベーションの成功のためには強いパートナーシップが必要だ。

「数週間前に私はまさにこの部屋でサム アルトマン(Sam Altman)と一緒にマイクロソフトのOpenAI とのコラボレーションを発表しました。人々と協力して新たなものを作り出していけることは本当にすばらしいことです」とシャムは述べる。

私たちは、コンピューティングプラットフォームの大きな転換を今まさに目撃しようとしている。その転換とは、AI の進化がもたらしたものであり、人間にとって最も自然な行為、すなわち、会話を中心としたものだ。デジタル体験が人々の間のやり取りと同様になり、私たちがコンピューターを理解しなければならない世界から、コンピューターが私たちを理解し、私たちの意図を理解して先取りして動作してくれる世界へと向かう新しい時代が訪れようとしている。

Zo

会話型コンピューティングは2つの側面を備えている。すなわち、作業を完了させる、あるいは生産性という側面と、感情に関連した側面だ。AI の夢を実現するためには両方の側面が重要だ。

マイクロソフトの長期的な戦略は Cortana などのエージェントが IQ だけでなく EQ も持つようになることだ。そして、この考え方に基づき、マイクロソフトのチャットボットの取り組みにおいていくつかの功績が達成された。

チャットボットの進化の次のステップとなるのがZo だ。

Zo はソーシャルなチャットボットであり、それぞれ中国と日本で成功した AI チャットボットであるシャオアイスと「りんな」の一連の技術を活用している。メッセンジャーKik上で、あたかも友だちとやり取りするようにZoと対話できる。マイクロソフトは、将来的に Zo を Skype や Facebook Messenger などのソーシャルや対話チャネルでも提供する計画だ。

Zo はインターネット上の膨大なソーシャルコンテンツを使用して構築されている。人間の会話から学んで、感情と知性があるように応答し、ユニークな視点を提供し、礼儀を心得ており、感情も表現する。そして、同時に悪用を防ぐための強力なチェックとバランス機能も備えている。

マイクロソフトの AI ビジョン、長年の研究活動に根ざし、会話にフォーカス

マイクロソフトのチャットボットの取り組みは、2014 年 5 月に中国におけるシャオアイスにより始まった。シャオアイスには 4,000 万人以上のユーザーがいる。これはカリフォルニア州の人口より多くの人々だ。そして、ユーザーは、セッションあたり平均 23 回のやり取りを行っている。これは業界標準の約 10 倍だ。シャオアイスは、視聴者数 8 億人という中国最大級の上海のテレビ局 Dragon TV で実際にテレビ番組の放送の仕事を行った最初の AI チャットボットだ。シャオアイスの成功に基づき、マイクロソフトは、2015 年 7 月、日本において「りんな」をスタートした。現在では、りんなは日本の人口の約 20 パーセントに相当する人々と定期的に会話している。

Zo は既に米国において 10 万人以上の人々との会話を行っている。現在までのところ、5,000 人以上のユーザーが Zo と 1 時間以上の会話を行っている。また、マイクロソフトにおけるチャットボットとの連続会話の最長記録も持っているが、それは 1,229 回のやり取りで、9 時間 53 分にわたるものだった。

「これはとても個人的な体験です。私たちがコンピューターを理解しなければならない世界からコンピューターが私たちの意図を理解してくれる世界への移行、機械中心型から人間中心型への移行、知覚から認識への移行、理性から感情への移行が今まさに進んでいるのです」とシャムは述べている。

Bot Framework(ボットフレームワーク)の構築

マイクロソフトは、Bot Framework とその関連ツール、サービス、データを提供し、開発者そして顧客が共に、企業規模を問わずマイクロソフトのテクノロジで構築や実験を行えるようにしている。

マイクロソフトの顧客は、プロセスを効率化し、顧客サービスを向上させるために先進的ボットを構築したいと考えている。日本の高知銀行は受付用ボットを、Rockwell Automation は生産工程の自動化を図るボットを開発している。また、オーストラリアのDepartment of Health Services は、顧客との対話を向上するためのボットを開発している。

マイクロソフトの FUSE Labs のディスティングイッシュトエンジニア兼ゼネラルマネージャーのリリ チェン(Lili Cheng)は次のように述べている。「ボットの脳という概念が語られることがありますが、これこそが多くの点で今後10年間のソフトウェア開発のチャレンジと呼べるものです。Bot Framework と開発ツールに関するマイクロソフトのビジョンは、人々が容易に開発を始められるようにするだけではなく、このような未来のシナリオを実現可能にすることでもあります。」

現在、67,000 人以上の開発者が、マイクロソフトの Bot Framework と Cognitive Services を利用している。企業がよく受ける質問に対して回答できるボットを開発者以外の人々でも容易に開発できるようにする QnA Maker サービス、そして、Microsoft Teams と Cortana Bing Location 向けのボットコネクターなどのアップデートが提供予定だ。

Skype のコーポレートバイスプレジデントであるアムリタンシュ ラガブ(Amritansh Raghav)は次のように述べている。「Microsoft Bot Framework のツールと Microsoft Graph の活用により、当社は人々の個人としての、そして、プロフェッショナルとしての生活を支援できる革新的なシナリオを提供しています。これらのイノベーションは、アプリ、メール、チャットプラットフォーム、モバイルデバイス、ネット接続されたデバイスを通じて利用可能になっています。」

顧客これらのボットが提供する可能性を享受できる方法のひとつに、Skype や Microsoft Teams などの体験によるものがある。Skype Calling API が利用可能になったことで、Skype は会話するボットを提供可能になり 、ユーザーが動画、GIFアニメーション、音声をこれらのボットに追加できるリッチメディアカードをパートナーが構築可能にするツールも提供される。

新しく魅力的な顧客体験を作り出す上でパートナーが重要だ。Hipmunk はマイクロソフトの以前からのパートナーであり、昨春にSkype上のボットを提供開始している。

Hipmunk の共同創業者兼CEOアダム ゴールドスタイン(Adam Goldstein)は次のように述べている。「当社の存在意義は旅行から面倒をなくすことです。バーチャルアシスタントはその目的を達成する上で自然な機能強化です。おそらくは人々が旅行の計画と予約を容易に行えるよう支援する上で最適な方法でしょう。見つけやすさが重要であり、Skype のボットディレクトリにより、生活をシンプルにするために人々が必要とするボットを容易に見つけることができるようになります。」

すべての人のためのインテリジェントエージェント

マイクロソフトが、AI と会話型コンピューターの可能性について考える時に重要になるもうひとつの要素が Cortana などのエージェントの役割だ。現時点では、13 カ国で 1 億 4,500 万人の人々が Cortana を使用している。Cortana は多様なプラットフォームとネット接続されたデバイス上で利用可能だ。

誰もが自分専用のパーソナルアシスタントを持つべきで、あらゆることの管理を容易にできるよう支援してくれるアシスタントを持つべきだという。

マイクロソフトのパートナーグループ プログラムマネージャーであるマーカス アッシュ(Marcus Ash)は次のように述べている。「その公約を実現するために、マイクロソフトはどのような作業を軽減できるかにフォーカスしています。私たちの約半数はメールを使って自分に作業項目やリマインダーを送っています。また、多くの人は TO-DO リストを管理しています。私のオフィスの部屋は付箋だらけです。そこで、マイクロソフトはこのような人々の予定管理を容易にすることに取り組んでいるのです。」

Cortana は、モバイルプラットフォーム上で稼働し、新しい Calendar.help サービスにより、メールでも利用できるようになった。また、Expedia が構築した旅行関連スキルや、Capital One が銀行向けに構築した新サービスなどでも利用可能だ。次のステップは、あらゆるプラットフォーム上で、よりスマートで有用なデバイスを構築できるようすべてのコンピューターとデバイスのメーカーで Cortana を利用可能にすることです。これが、Cortana デバイス SDK の役割だ。

マイクロソフトは、Cortana をネット接続されたデバイスに統合するために多様なカテゴリーのデバイス向けにパートナーと協業している。デバイス SDK は、プロダクティビティ、音楽、ホームオートメーション、デバイスコントロールの Cortana スキルを提供する。

マイクロソフトの AI ビジョン、長年の研究活動に根ざし、会話にフォーカス

まもなく、Cortana は、高級オーディオメーカーの Harman Kardon とのパートナーシップにより新しい形で家庭において使われるようになる。

次に来るものは…

マイクロソフトは、テクノロジ-の躍進は、たゆまない実験、大胆な探求、そして、長期的なイノベーションへのコミットメントによって作られると考えている。

大きな進歩があったものの、AI の世界ではまだ多くの未解決の問題がある。インターネット、モバイル、アプリエコノミー等、テクノロジの新しい波が生まれた時には必ず成長の痛みがある。AIもその例外ではない。

「マイクロソフトは境界線を押し広げ、学んでいきます。そして、学んだことを業界と、そして、あなたと共有していき、AI を民主化し、社会に貢献できる存在にできることを望んでいます」とシャムは述べている。

IoT/AIのトレンドや事例をお調べですか?
IoTNEWSでは、IoT/AIのトレンドレポートを毎月作成、法人会員限定で配布しています。 また、毎月有識者による様々なテーマでの勉強会を実施しております。
詳細はこちら
Previous

Wi-SUN Allianceがインドでスマートシティー、IoTを推進 初のIEEE 802.15.4u PHY相互運用性イベント完了

大手グローバル企業のIoTへの取り組み -World of IoT2016 レポート

Next