「AI」の活用の実態と、未来をよむ

小泉耕二

6年前

AI活用に、過剰な期待を持つ方が絶えない中、「現状のAIでは大したことができない」という論調も目にする。

実際、AIといっても、現状ではディープラーニングという手法を使うことがAIだと主張するグループがあったり、高度な人がやりそうな判断を機械にやらせるという概念をAIと呼ぶグループもある。

AIを研究する研究者にしてみれば、脳の仕組みを数学的に解明するための数式であり、その手法はディープラーニングだけに偏らないという主張もあるだろう。

そう考えると、何がAIの今なのか？という気持ちにもなるが、多くの企業が、これまでのアルゴリムズでは解決できなかった課題を様々な数学的アプローチを使って解決しているという事実は着実に積み上がっているのだ。

今回は、春から夏にかけて、世界各国で発表された、様々な「AI」を紹介していく。

合成音声技術の進歩

Google関連企業

グーグル関連会社Deepmindは、開発したAI技術を使い、さらに自然言語に近いText-to-Speech（音声合成技術）を実現ですることができた。

「Cloud Text-to-Speech」と名付けられた、このサービスはグーグルのクラウドツールの一つとして提供され、アプリケーション、ウェブサイト、あるいはバーチャルアシスタント用の音声合成に利用可能だ。

「Cloud Text-to-Speech」はDeepMind社が開発した「Wavenet」というソフトウェアで動いている。Wavenetは他の音声合成技術と違って、音声サンプルを保存しているではなく、機械学習を使い、ゼロから音声を作成している。そのため人語データベースにある波型を分析し、1秒に24000音声サンプルを合成している。そのおかげで、最終的に合成された音声はアクセントや唇鳴らしなどの些細な部分を含み、人語と識別がつかないレベルを達成できたのだという。

グーグルは自然言語に近い音声合成の実現に力を注ぎ、2018年のGoogle I/Oにて「Duplex」というツールを発表した。同イベントにて、グーグルは相手にAIであることがわからないほど高いレベルの音声合成が可能なAIアシスタント「Duplex」によって通話のデモを行ったことは記憶に新しい。

「Duplex」は複雑な文章や速いスピーチを理解し、自然に会話ができて、アポイントメントをとることができる。最終的に、「Duplex」はユーザーに予約を確認するためのメッセージを通知するものだ。

しかし、この技術が発表されてからまもなく、相手がAIと話していることを理解していないことに関して、多くの人から疑問の声が挙がった。そこで、グーグルはそれに対して同システムに情報開示機能が組み込み、「Duplex」を利用する時、発信者はAIであることを相手に伝えることが可能だと発表した。

さらに、Google Maps上で動く、グーグルアシスタントの統合デモも公開された。この機能は今年の6月からiOS や Android上で利用可能になっている。

この機能を使い、Google Mapsの案内に従いながら運転する時にGoogle Assistantに到着予定の時間を共有するように音声指令ができるようになった。

Google Mapsアプリを閉じることなく、音楽再生、テキスト送信、電話や天気予報の確認もハンズフリーで音声指令によってコントロールが可能にもなった。

この機能はAndroid Autoや、Apple CarPlayが設置されてない車に特に役立つ。また、グーグルにとって独自のアシスタントをプロモーションできるチャンスでもある。

Microsoft

マイクロソフトも自然言語にもっとも近い音声合成を目指して技術開発をすすめており、Semantic Machinesというスタートアップを買収した。

この買収に当たって、マイクロソフトはバークリー市でAI対話先端研究センターを設立する予定だ。

2014年に設立されたSemantic MachinesのAI技術は返事や質問を予測するだけでなく、自然に流れる会話を合成できるという。Semantic Machinesはコンシューマー製品を作る予定はなく、法人顧客との提携に集中しているため、マイクロソフトにとって対話製品に統合しやすかったという。現在マイクロソフトの対話製品はマイクロソフトコグニティブサービスやAzure Botサービス、CortanaとXiaolceバーチャルアシスタントからなっている。

マイクロソフトは2018年の年次イベントBuildにて2500万ドルの「AI for Accessibility 」プロジェクトを発表している。このプロジェクトはAIを使って障害者用の技術やソリューション開発を目指しているという。

このプログラムは障害者を支える技術やソリューションへの投資や支援を始め、リアルタイムテキスト音声変換やテキスト予測機能などのアクセサビリティーアプリケーション開発を計画している。

このプロジェクトは、障害者にとって新しい機会を創出し、人間関係、職場や私生活の分野に支援するソリューションにフォーカスするのだという。

NvidiaとArmの提携

Nvidia 社とArm社は提携を発表し、NvidiaのオープンソースDeep Learning Accelerator (NVDLA)をアーキテクチャーをArmのProject Trilliumプラットホームに統合するという。

このプロジェクトによって、Nvidiaは、IoTチップを製造している企業が簡単にAIを製品に導入できることを期待している。エッジデバイスへのAIの導入がIoT市場の拡大を促進できると考えているようだ。

Arm社のProject Trilliumは機械学習やニューラルネットワークに対応できるスケーラブルなプロセッサーである。NVDLA はオープンソースソリューションであるため、Arm社はそれを新しいプラットホームで開発ツールとして採用した。

スケーラブルなチッププラットホームや開発ツールを一つのソリューションとして提供することで両社は様々なIoTデバイスでのディープラーニング技術採用を促進させる目的がある。

Googleの画像認識モデル開発簡易ツール

2018年1月、グーグル社はAutoML Visionα版の提供開始を発表した。

このサービスを使って、機械学習の経験がない開発者でもカスタム画像認識モデルを開発できるという。サービス展開の時点で、同社はコンピュータービージョンモデルのみに対応していた。

AutoML Visionの主なアイディアは、顧客は独自のタグ付けあるいはタグなしの画像をアップロードすると、システムは自動的にその画像に適した機械学習モデルを作成するという。このたび、すべての作業はドラッグ・アンド・ドロップによって実現する。

立ちあがり始めた、AIイニシアティブ

フランスの150億ユーロのAIイニシアティブ発表に続き、欧州連合では新しいAIイニシアティブが発表された。クロアチア、ルーマニア、キプロスとグリシアを除き、欧州連合の24加盟国とノルウェーは共同AI技術やソリューション開発に関する宣言に調印した。

この動きは各国での経済や将来の技術発展においてAIの重要性が重要視されていることを示していると言える。欧州連合は包括的なAI計画に取り組んでおり、AI 分野でアメリカと中国と競争力を持つため、欧州連合は国境を超えるAIイニシアティブを主催した。

Linux FoundationのLF DL Foundation

Linux Foundationは、LF Deep Learning Foundationという新しいプロジェクトを始めた。

このプロジェクトの目的は「AI、機械学習やディープラーニングにおけるオープンソースイノベーションをサポート、世界中の開発者やデータサイエンティストにこの最新技術をお届けする」のだという。

Amdocs、 AT&T、 B.Yond、百度、ファーウェイ、ノキア、Tech Mahindra、 Tencent、 Univa や ZTEという企業が設立メンバーとして参加している。

新組織の初プロジェクトとなったのはAcumos AI プロジェクトだ。Acumos AI はAT&TとTech Mahindraのコラボプロジェクトであり、AIモデルやワークフローの開発や共有のためのプラットホームである。

他のLinux Foundationの組織と同様に、LF Deep Learning Foundationに参加するメンバーはかならずLinux Foundationにも参加しなければいけない。プロジェクトをサポートしたい企業にLF Deep Learning Foundationは非営利団体向けメンバーシップを含めて、様々なメンバーシッププランを提供している。

AIが起こしうる将来の問題とその対策

Teslaのイーロン・マスク氏や、グーグルDeepmind社やSkype社の設立者を始め、優秀なAI技術者や企業リーダーはAI技術を使う自動殺傷兵器を開発しないという宣誓書に調印した。

この宣誓書は2018年ストックホルム市に行われたIJCAI（国際人工知能合同会議）で公開された。同宣誓書では、人間介入なくターゲットを選択・攻撃するAIを使った兵器システムの実用やモラル脅威が主張された。「人生を奪う決定は決して機械に任せるべきではない」と参加調印者は諭している。

これまで、自律型致死兵器システム（Lethal Autonomous Weapons Systems、以下LAWS）の国際規制を導入する呼びかけは成果を得られなかった。その背景には自律型武器システム識別は曖昧である他、アメリカや中国などLAWS開発が進んでいる国では国際規制を導入する動機はないなどの課題があると考えられている。

今後、技術の進歩が人の命を奪うようなことに使われないよう、注意していかなければならない。

Pymetricsによる偏見を発見するツールのオープンソース化

アメリカのAIスタートアップPymetrics社はアルゴリズムに偏見を発見するツールをGitHub上でオープンソース化した。

同社のAudit AIツールはアルゴリズムをスキャンし、差別化や好意的な扱い・特恵を検出する。

Pymetricsはもともと人材紹介に専念しており、優秀な人材をビジネスに紹介していた。

テキサス大学ダラス校とNIST研究者が2010年に共同で行った研究の結果は、欧州で開発されたアルゴリズムは白人認識に優れているとわかった。一方、東南アジアで開発されたアルゴリズムは東南アジア人の認識に優れていた。このように、アルゴリズムは非意図的に決まったグループで効率が高いという結論だった。

Audit AIはこのような偏見を検出し、開発者に伝え、開発者はそれに基づきアルゴリズム修正の必要を決めるという仕組みだ。

機械学習技術はこれからさらにヘルスケア、警備、福祉システムなどに適用されるため、大規模で偏見や不平等を再強化する可能性があり、人権侵害につながりかねるという。このような悪影響を防ぐため、Audit AIのようなソリューションは重要だ。

Emotional AIの利点と適用

市場調査、マーケティングや政治に関するアンケート調査など、住民や顧客感情を分析できたら購入動機などを解明し、売り上げ向上に使う可能性があるため、アマゾン、グーグル、AppleやFacebookなど大手企業が感情を理解できるAI技術に興味を示している。

顔認識、音声パターン認識やディープラーニング技術を使い、AIシステムは人間の感情を認識や識別、解釈や処理をし、シミュレーションできるようになる。

ブランドは感情にアピールする顧客体験を利用し、もっとパーソナルレベルで顧客と繋がる機会として使う。もちろん、個人情報と同様に、顧客から感情を分析する許可が必要となってくると思われる。

ビジネスにおける、感情を理解するAIが適用される３分野は以下とされている。

ユーザーの感情を分析し、それに基づいて返信を調整するシステム

この場合、AIサービスは感情を把握し、最終決定に考慮するという仕組みだ。しかしシステム出力自体は感情を含めていない。

この仕組みはチャットボットや双方向型音声認識(IVR) に適用されており、顧客の感情を考慮し、もっと早く適切なサービスに案内できる。特に、怒りを検知したら、システムは顧客を人間スタッフに回すあるいは上層部にエスカレートし、さっそくの対応を実現できる。

オートモティブ分野にも運転手の怒りや不注意を検知できるソフトウェアシステムは開発中である。フォード社、AutoEmotive、 Automotive AIはこのようなソリューション開発に取り組んでいる。怒りや不注意が検知された場合、システムは事故や傍若無人を防ぐためコントロールに切り替えるか車両を止める。

感情分析をフィードバックや学習に使うシステム

同種のシステムは感情を把握と解釈し、洞察をユーザーに知らせる。ユーザーは自分のストレスレベルを覚悟し、判断や決定を再確認できるという。

Brain Power社はグーグルグラスの類似デバイスを使い、閉鎖症があるユーザーに他人の感情解釈、交流中のコツやユーザー本人の精神状態についてフィードバックをメガネの画面に映し、ユーザーに社会スキルを身いつけるコーチングを実施。

人間交流の代りになるシステム

この数年で人気を集めたデジタルアシスタントは音声認識や対話型UIを使い、様々な分野で採用された。

グーグルアシスタント、アマゾン・エコーなどの一般的なデジタルアシスタントは社会的・感情的なつながりを使い、仲間になり、ユーザーのロイヤリティ確保やセールス向上に使われている。しかし、AIアシスタントはもっと幅広い分野で活用できる。

南カリフォルニア大学のクリエイティブ技術研究所の研究によると、人間は人間ではないものと交流や関係づくりにオープンであることが分かった。心的外傷後ストレス障害がある兵士は医者や健康アンケートよりバーチャルアバターと交流する時に症状を暴く可能性が高いと確認した。

Ellieはメンタルコーチングを行う3D インテリジェントアバターである。機械ビジョンやAI技術を使い、相手の言葉や顔の表情を解釈し、正しいタイミングで身振り、うなずき、笑顔などで思いやりを表現し、信頼関係を築く。人間ではないため、プライバシーを守りながら信頼関係を築けることはEllieの特徴だ。この特徴を活用し、メンタル問題が発見された患者に一刻も早く治療を提供できる。

他にも、難民のメンタルヘルスコーチングにAIを活用している事例もある。

レバノンに避難したシリア難民は数多くのメンタル問題があり、現地の専門家が足りない状態だったため、アメリカのX2AIスタートアップはKarimというインテリジェント・チャットボットを開発した。ユーザーがKarimと話している間、システムは自然言語分析を使い、精神状態を評価し、ユーザーに相談をしてくれる。

さらにデジタルアシスタントはお年寄りの仲間になり、孤独を緩和するツールとして使用されている。

日本でAIによる感情認識の適用例

株式会社シーエーシー(CAC)は、リアルタイムで自動車の乗員の感情分析が可能な車内センシングAI「Automotive AI」を提供開始した。

「Automotive AI」は、自動車内に搭載したカメラやマイクを利用し、運転者や同乗者の表情データと音声データを収集し、それらを基にリアルタイムで乗員の感情を分析するサービスだ。

Affectiva, Inc.が開発した車内センシングAIであり、ディープラーニングを利用した表情と感情のデータベースとAffectiva社独自のアルゴリズムにより高い感情分析精度を発揮する。

車内に設置したカメラとマイクから映像や音声を収集し、マルチモーダルな感情分析を実現。映像に映っている人物の表情(形や動き)を分析し、マイクからは発話者の音声(トーン、テンポ、音量など)を分析する。

外部ネットワーク接続を必要としないローカル処理モードでの使用が可能だ。RGB／近赤外線カメラの利用が可能なため、逆光や暗闇などでも運転者の表情を正しく検知できる。

ディープラーニングによる画像認識技術を用いて、顔画像から表情や感情を分析する。

このように「Automotive AI」は4つの感情値、8つの表情値、3つの眠気に関する指標や3つの音声感情を識別できるという。

拡大するAIの適用分野

Nvidia社とGEの関連会社Baker Hughes社は石油・ガス産業のためAIソリューションの開発に挑んでいる。

NvidiaのGPU技術を使い、両社は新油田発見、パンピング、原油処理や消費者への調達まで、様々な過程への適用を目指している。

石油・ガス産業では、膨大なコンピューター能力や通信が悪い環境（オフショアサイトなど）で作動可能なプラットホームが必要だ。新しい発掘スポットの発見や地震活動が起こりうるサイトでシミュレーションやデータ処理が幅広く使われている。さらに、設備の継続的な作動を確保する予知保全やメンテナンススケジュールなどの技術が重要だ。

同産業において、AIはコスト軽減を始め、日常的に運用されている危険なハードウェアによるリスク削減にも貢献すると期待されている。