Amazon Echo, Google Homeなどのスマートスピーカーを、日本企業はどう見るべきか[Premium]

ついに、日本でもスマートスピーカーの販売が開始され出した。

GoogleからGoogle Home、 LineからClova WAVE、冬にはAmazonもAmazon Echoを販売開始するという。
（MicrosoftからもHarmanのスピーカーにCortanaを搭載した、Invokeが発売される予定だ）

使用感は様々な方が情報を公開されているので、見た方もいるのではないかと思うが、予測通り日本語の聞き取りの問題が大きく立ちふさがっているようだ。

しかし、機械学習やディープラーニングなどの技術を駆使して造られた自然言語対話エンジンは、使われれば使われるほどに賢くなるので、「精度が悪い」「聞き取れてない」と言わず、青田買いをしてしまった方は、じっくりエンジンを育ててあげてほしい。

ところで、このスマートスピーカー。先日のIFAのレポートでもお伝えした通り、百花繚乱の程を示している。

スマートフォンを見ていてもわかるように、最近は同じ機能を有していても、「売れるモノ」と「売れないモノ」があり、相当な研究開発費をかけて先行している企業と同等なものを作ったとしても、果たして事業的に成立するのか？という点がわからないため、後追いすらままならず、意欲的な製品については開発・量産に至らないケースも増えてきているのだという。

スマートスピーカーについても、他社のソリューションを入れ込んだだけの、今までと同じ「スピーカー」をつくるだけでは、「Windowsが入ったパソコンを作れば売れたという時代」とは違って、すでにグローバルの販売網を確立している企業が作る流行り物は、先行してユーザを囲い込んでいるメーカー製だけが売れるという結果になるのではないだろうか。

さらに言うと、そもそも、スマートスピーカーはみんながほしいものなのだろうか？という疑問すら残る。
（※では、なぜスマートなスピーカーを各社リリースするのかという事情は後半で説明する）

以前より、家ナカや建物のナカを、音声だけでなく、様々な情報でセンシングし、声で操作するという考え方はあり、過去行った大手家電メーカーへのインタビューでも、「想像しえるモノはもちろんすぐにでもつくれるが、「利益がでるのか」「どれくらい売れるのか」が見えないと簡単には踏み込めない」という声も聞かれる状況だ。

しかし、これらの事象はあくまでも「モノの製造」の話をしているということに気づいてほしい。

世の中はとうの昔にサービス化している

以前、とあるデジタルカメラのメーカーの担当の方とお話しする機会があった時、「デジタルカメラのクラウド化って随分前から話が出ていて、実際にサービスもやってみたのだけどうまくいかなかったのだよね・・・。IoTって言っても同じ事でしょ？」と件の方はおっしゃるのだ。

その、「やってみた」サービスというのは、クラウド上にアルバムを作るというようなものだ。それで、うまくいかないからと、原点回帰し、デジタルカメラの機能を追求しているのだという。

ご存知の通りカジュアルな撮影はスマートフォンで十分になっている。「スマートフォンの販売が伸びる中、デジタルカメラの売れ行きも落ちているのだ。」とおっしゃる。

しかし、この方、スマートフォンで撮影するもう一つの理由に気づいているだろうか？

以前は、「カメラで瞬間を切り取り保存する」というユースケースが重要であった。しかし、最近では「撮影したシーンを共有する」というユースケースが重要だと言われている。

つまり、スマートフォンはそのままinstagramやFacebook、Twitter、LINEなどのソーシャルメディアと繋がっていて、共有することがメインとなっている事に気付かないといけないのだ。

実際、中国のスマートフォンメーカーを取材すると、スマートフォンの特徴として、カメラ性能はもちろんのこと、「美肌効果」や写真の「加工機能」を売りにする企業が多く、スマートフォンは、「他人とのつながりの中で自分が何を表現するのか」といった使い方に移行しているのだ。

ここまでソーシャルネットワーク上にアップロードすることが一般化すると、さすがにデジタルカメラの製造メーカーの方も、「きれいな写真をとって保存するサービス（アルバムサービス）」をつくるのではなく、「プロ級の写真を気軽に撮れて、それをみんなと共有出来るサービス」をつくる必要があったのだと今は気づいているだろう。

このように、モノの製造メーカーという立場の企業は、既存の体験を脱ぎ捨ててクラウドとつなぐからできること、どうやって今の環境で楽しむのか、ということに着目することが重要だと言える。

スマートスピーカーと家電メーカーやアプライアンス製品メーカーはどう向き合うべきなのか

そして、デジタルカメラのような変化は、今後生活全体に起きてくる。

ここからは、巷にあふれるスピーカーの批評もよいが、来るべきスマートホームの時代に向けて、家電メーカーやアプライアンス製品メーカーはどう向き合うべきなのか、そういった企業に提案するサプライヤーはどういう視点で提案をしていくべきなのかについて解説する。

その際、AmazonやGoogleと対抗できないという企業でも、実は大きく儲ける余地があるという「第三の活路」についても紹介する。

まず、スマートスピーカーを、「スピーカー」という要素と「音声認識エンジン」という要素と「様々なアプライアンス製品とつながるためのハブ」という要素の３つに分解する事が第一歩だ。

スマートスピーカーの音質などに目がいっていると本質を見失う。私見ではあるが、正直、スピーカーの音質を追いかける消費者が、これらの製品を買うとは今後も思えない。

しかし、Amazon Echoが登場した時、いきなり「音声認識エンジン」と「様々なアプライアンス製品とつながるためのハブ」の役割があると定義されたところで、多くの消費者はついていけなかっただろう。
（読者についていけない人がいても、この後解説するので安心してほしい）

そこで、「スピーカー」という形を取り、すでにGoogleやAppleから提供されていたような、天気や交通情報をも音声でのやりとりで取得するというわりと近未来的なイメージがつくような製品をリリースしたのだ。

ちなみに、丸い筒なのは、音声指示が360度どこから来ても聞き取れるためにこの形となっている。

全く新しい製品を市場にぶつける時は、「これを一つ買うだけでいろいろできる」という訴求が常套手段だとも言える。

しかし、Amazonはその後、すぐにAmazon Echoの弟分である、Amazon Echo Dotというスピーカー機能が貧弱な小型の製品を投入してきた。

今回のGoogle Homeであれば、Google Home miniがこれにあたる。

この小型のAmazon Echo、Echo Dotのリリースが指す意味は、本来Amazonがやりたかったコトが、「スピーカー」ではなく、「音声認識エンジン」と「様々なアプライアンス製品とつながるためのハブ」の役割であることを指しているのだ。

音声認識エンジン

近い将来、人はデジタルで作られたエージェントと音声を通して対話する。

その相手は、ロボットかもしれないし、テレビかもしれないし、Echo Dotのようなモノかもしれない。

どんな形のものであれ、音声認識エンジンは必要で、特に「日本語の壁」とも言うべき日本語対応は各社鬼門といえるだろう。

音声認識エンジンは、

1. 人の声を認識する
2. 声の内容をテキストに置き換える
3. テキストの内容を理解する（意味理解）
4. 理解した意味に従って、何かの処理を行う
5. 必要に応じて人に報告する

という段階を踏んで処理される。

ここで、同音異義語が多かったり、主語のない会話が多い、地方によってなまりや言い方の違いが多い、など、日本語特有の問題を解決しない限り3のプロセスを処理する事ができないのが大きな課題だ。

ここで、機会学習をつかって、様々なパターンを学習するのだが、ここが大変だ。相当なパターンの学習データがないと対応しきれないのは想像に難くないはずだ。

様々なアプライアンス製品とつながるためのハブとなる

そして、ここがとても重要なポイントなのだが、Amazon Echoには、「Alexa Skill（アレクサ・スキル）」と呼ばれるスキルがある。

これは、様々な家電製品などとつながるためのAPI群だ。

APIとは、インターネットやブルートゥースなどを経由した接続をするための決まりごとだと理解してほしい。

このAPIを活用して、様々な家電製品などと接続することで、いわゆる「スマートホーム」が実現できるのだ。

そして、複雑なのは、この接続が「Amazon Echo対他の家電」という分かりやすい構図だけでなく、「Amazon Echoから他のサービスを経由して、他の家電」など、経路をまたがって他のモノを動かす事ができるという点だろう。

これを使う事で、例えば家にいて、Amazon Echoに「会社の電気を消して」というと、会社の電気が消えてしまう。といったことが可能となるのだ。

何を知っておくべきなのか？

もう、勘のいい人はお分かりかと思うが、スマートスピーカーの仕組みが分かると、本当に重要なのは３つ目の「様々なアプライアンス製品とつながるためのハブとなる」というところだと気づく。

Googleは、インターネットというブラウザで楽しむ仕組みの中で、入り口となる「検索」という世界を制してオンリーワンの存在となった。

Facebook（InstagramのFacebookグループ）は、ソーシャルネットワークという仕組みの中で、入り口となってオンリーワンの存在となった。

現在、グローバルマーケットありきで事業構造を組み立てるのが主流で、何かの世界でオンリーワンになろうとすると、この「入り口」を制することがもっとも重要なこととなる。

そして、オンリーワンになれなかった企業は、２番手といえども大した規模にはなれない。（実際GoogleやFacebookの次の規模のサービスを思い付くだろうか？）

今、生活の中で「音声を使って自分の欲求を満たす」というコトについては、まだ誰もオンリーワン企業になれていない。

世界ではこの競争が加速している。これが、今スマートスピーカーの世界で起きていることなのだ。

今は家ナカの話をしていると思っている方も多いかと思うが、すぐに、「クルマのナカ」「レストランのナカ」さらには「街のナカ」・・・と様々なシーンで音声対話が使われることになる。これがイメージできるかどうかでこれから考えるべきサービスの幅は大きく変わる。

AmazonとGoogleでどちらが有利なのか

ここまで読み進むと、「スマートスピーカー百花繚乱」というのは、ややおかしな言い方だと気づくだろう。

実質、世界ではAmazonとGoogleの２社で戦いはすすんでいる。

ここにSiriなどで、すでにユーザが多いAppleがなぜいないのかというと、Appleは「様々なアプライアンス製品とつながるためのハブとなる」というところが「独自仕様と接続することができる様々なアプライアンス製品とつながるためのハブとなる」となってしまっていて、広がりが弱いからなのだ。

また、マイクロソフトは比較的法人に強いため法人向けの音声対話エンジンを活用したサービスを充実させていく可能性が強い。

この２強の戦いにおいて、私の知り合いの米国で暮らすビジネスマンは、

「すでにEC業社として生活のナカに入り込んでるAmazonは、Amazon Primeという有料会員サービスを展開していて多くの会員がいる。

そこにきて、Prime会員特典として、無料で映画や音楽が見れるサービスが提供されているので、Amazonのサービスを使って音楽や映像を楽しむ利用者は多い。

さらに、『いつもつかうモノの購入』というシンプルな要求にも応えられるAmazonは、スマートホーム以前に現状できることをスマートにすることに成功している。」

というのだ。

買い物、音楽や映画などのエンタテイメント、交通情報や天気・ニュースといった情報、など様々な切り口での利用が既に進んでいる、そして利用者も相対的に多い、という点で有利だというのだ。

また、先行者利得もあって、早い段階から、Alexa Skillを全世界に公開していることから、Alexa対応製品がすでに多いことも重要だと言える。

事業者にとって嬉しいモノは

ここで、対応製品が多い事は、消費者にとって嬉しい事だが、事業者にとってはどうだろう。Alexa Skillを自社製品に入れたとする。

はじめに得られるメリットは、

・音声で操作ができる

という事に尽きるだろう。

しかし、例えば既存機能の冷蔵庫や電子レンジを声で操作したいだろうか？

メーカーは先進性を表現するためにAlexa Skillを入れ込んで展示会などで発表するが、メーカーサイドも決してそれでよいとは考えていない。

実際、IFAであった多くのメーカーも「とりあえず入れたが、様子見だ」としている。

まとめると、次の事が言えるのだ。

Amazon EchoやGoogle Homeに対抗するなら、「音声認識エンジンのデファクトスターンダードをとる」ことや「様々なアプライアンス製品とつながるためのハブ」としての役割を追求するべき

「音声認識エンジンのデファクトスタンダードをとる」ということは簡単な事ではないが、おそらくここを狙うことが次の勝者となることは間違いないので、狙える企業は今からでも狙うべきだろう。（実際、LINEは狙っている）

その際、「音声認識エンジンはAIの技術者と大量の学習データ」が必要だ。

後者については、「接続する製品は自社製だけではないので、すでに多くの人に利用されている『他社製のモノ』とどうつながるかを考える」ことが必要なのだと言える。

考えてみれば、AppleがiTunes Storeで「CDを買う」という購買行動から「データをダウンロードする」という購買行動に変化させたのも、「多くの音楽レーベルとアーティストに賛同を得たから」だ。

当時、日本の企業は「そんなこと、随分前からやっていたし、考えていた」と言ったものだが実現できた企業はなく、スティーブジョブスのレーベルやアーティストに対する交渉力が音楽のデータ配信の夜明けと音楽ビジネスの変容を後押ししたと言えるだろう。

ここまでだと、「音声認識エンジンのデファクトスタンダードをとる」ということは、AmazonやGoogleにはもう勝てないのではないか？と思う方も多いだろう。

さらに、「様々なアプライアンス製品とつながるためのハブ」となる方は、世界中のモノとつなげるという途方もない作業が待っていると思うだろう。

しかし、一つ見落としていないだろうか？

第三の活路、「特化型アプライアンスのハブ」

GoogleやAmazonがどれだけ大手企業だとはいえ、世界中のモノの入り口になるにはみなさんの企業と同じく限界がある。そこで、私が考えるのが第三の活路となるのは「特化型アプライアンスのハブ」だ。

つまり、音声処理はGoogleやAmazonに任せるのだけど、例えばクルマをコントロールするなら、「当社のサービスと接続すれば、すべてのカーナビをコントロールできます」といった、アプライアンスサービスを「特化してまとめるハブとなる」ということだ。

当然、モノ側の仕様や事情をよく知らないとこんなサービスは作れないので、これまでメーカーとして培った技術はとても役に立つはずだ。

他にも、メディアバイイングができる大手広告企業であれば、「当社にサービスと接続すれば、すべての広告表示デバイスをコントロールできます」といったサービスをやるのだ。

こうして、「特化型アプライアンスのハブ」となるサービスをつくり、Amazonであろうが、Googleであろうが、今は見ぬ第三極の企業であろうが、ひとまとまりとなったデバイス群やサービス群をコントロールするなら、「当社とつなぐ方が早い」。という考え方をするのがよい。

IoT/AIを使って、あらゆるモノがつながる世界はそこまでやってきている。「モノの入り口」を制するのか、「モノ側を担当する」のか、「モノと接続するためのある領域に特化した口」を準備するのか、すぐにでも立ち位置を決めて活動をしなければ間に合わない。

この記事に関するご意見、質問などは以下からどうぞ

エラー: コンタクトフォームが見つかりません。

無料メルマガ会員に登録しませんか？

膨大な記事を効率よくチェック！

IoTNEWSは、毎日10-20本の新着ニュースを公開しております。また、デジタル社会に必要な視点を養う、DIGITIDEという特集コンテンツも毎日投稿しております。

そこで、週一回配信される、無料のメールマガジン会員になっていただくと、記事一覧やオリジナルコンテンツの情報が取得可能となります。

DXに関する最新ニュース
曜日代わりのデジタル社会の潮流を知る『DIGITIDE』
実践を重要視する方に聞く、インタビュー記事
業務改革に必要なDX手法などDXノウハウ

など、多岐にわたるテーマが配信されております。

また、無料メルマガ会員になると、会員限定のコンテンツも読むことができます。

無料メールから、気になるテーマの記事だけをピックアップして読んでいただけます。ぜひ、無料のメールマガジンを購読して、貴社の取り組みに役立ててください。

無料メルマガ会員登録

小泉耕二

IoTNEWS代表

1973年生まれ。株式会社アールジーン代表取締役。
フジテレビ Live News α コメンテーター。J-WAVE TOKYO MORNING RADIO 記事解説。など。

大阪大学でニューロコンピューティングを学び、アクセンチュアなどのグローバルコンサルティングファームより現職。

著書に、「２時間でわかる図解IoTビジネス入門（あさ出版）」「顧客ともっとつながる(日経BP)」、YouTubeチャンネルに「小泉耕二の未来大学」がある。