マイクロソフトの研究者が AI 制御の飛行マシンをテスト

この記事はマイクロソフトのブログ記事で発表された内容である。

ネバダ州ホーソン ― ネバダ砂漠の焼け付くような暑さの中、白いジープラングラーが何マイルも続く砂とヤマヨモギに囲まれた荒れた道路を走っています。

ジープが揺れながら進むにつれて、マイクロソフトの研究チームメンバーであるジムピアビス（Jim Piavis）とリックロガーン（Rick Rogahn）は、ロールバーにつかまり、シートの上に立ってルーフから上半身を突き出しています。2 人は青空を眺め、セールプレーンと呼ばれるグライダーを追っています。

繊細な黒、白、赤のセールプレーンは、最初は不安定に飛んでいましたが、次第に大きな旋回飛行を始めました。

鷹が現われ、その隣で同じ旋回飛行を取り始めます。
「空で友だちを見つけたようです。これは良い兆しです」とピアビスは言います。

全長16.5フィート、重さ12.5ポンドのセールプレーンは、熱により生まれる見えない気流を見つけ、すぐに空高く舞い上がりました。ジープは時速30マイルで走り出し、チームが無限飛行マシンとも呼んでいるセールプレーンを追い始めます。

マイクロソフトの研究者は、モーターを使用せずに、まるで鳥が空を舞うように、自律的に自然の気流を発見し、それに乗ることでセールプレーンを飛行させるAI（人工知能）を活用したシステムを作り上げたのです。

「鳥は自然の力を使って、簡単に同じことができます。そしてそれをピーナッツほどの大きさの脳で実行できます」とマイクロソフトの主任研究員アシスカプーア（Ashish Kapoor）は述べます。

鳥はそれを自然に行うことができますが、機械が同じことをするには、気温、風向、飛行禁止区域などを識別できる複雑な AI アルゴリズムが必要です。さらに、他の AI 手法でそれらの情報を活用し、次にどの気流に乗るべきかをリアルタイムで予測する必要があります。

いわば、写真の顔認識や、会話の単語認識など、現在個別に使用されているほとんどの AI システムよりもはるかに複雑なシステムが必要になります。

このシステムは、単に予測を行うだけでなく、その予測に基づいて現実世界で行動を起こすことができる数少ない AI システムのひとつであろうとカプーアは述べています。

このシステムはまだ開発中ですが、カプーアによれば、最終的には、この無限飛行マシンは、農村での作物の監視やネット接続が困難な地域でのインターネットサービスの提供など多くの現実的用途に使用されることになるでしょう。

「このマシンがいつか携帯電話の中継基地になるかもしれません。地上設備が不要になるのです」とカプーアは述べます。
最終的にはこのセールプレーンは太陽光や風力で発電することができ、理論的には無限に飛行可能になるとチームは述べています。

現実世界のAI

この自律飛行型のセールプレーンは、それ自体で有用です。しかし、このプロジェクトのリサーチとエンジニアリングの責任者であるマイクロソフトの研究者、アンドレイコロボフ (Andrey Kolobov）は、この研究成果が、現実の予測困難な環境で機能する AI に依存した他の多くの高度なシステムに適用されることを期待しています。

コロボフは「私たちにとって、このセールプレーンは今後10年間にインテリジェントと見なされるあらゆるもののコアテクノロジーのテストベッドなのです」と述べています。

人々が、自動車の運転、ホームセキュリティ、スケジュール管理などで AI による支援を得るためには、交通状況、騒音、天気、他の物体、人間の感情などの変数に基づいて複雑な意思決定をその場で確実に行うことが必要です。さらに、これらのシステムは多くの間違いを起こすことはできません。それは費用がかかり、危険を伴う可能性すらあります。
コロボフは「私たちのセールプレーンのような現実世界の AI にはエラーの余地はほとんどありません」と述べています。

専門用語では、この種の能力は「不確実性下の逐次的意思決定」と呼ばれます。

「これは『数ステップ先を見てどう将来に対応するか』という問題です。コンピューターの視点ではこれは非常に難しい課題です」とカプーアは述べています。

AI 理論を実践する

ネバダでテスト中のセールプレーンは、内蔵コンピューター機器、方向舵などの制御機能、そして、地上との無線通信のためにバッテリーを使用しています。また、必要な時にパイロットが手動飛行に切り替えられるようにモーターも備えています。しかし、いったん離陸すると、モーターや人間の援助なしに、気流を発見し利用して自律的に飛行できるように設計されています。

「私たちがやろうとしているのはセールプレーンを完全に自律型にし、行動パターンを自分で変更できるようにスマートにすることです」とコロボフは述べています。

システムの設計のために、チームは部分観測マルコフ決定過程と呼ばれる問題の思考フレームワークの開発から始めました。

マルコフ決定過程に関する書籍を共同執筆したコロボフは、これが、すべてを知ることができない環境における意思決定のためのモデルであると述べます。適切な意思決定のために必要なことをセールプレーンのシステムができるだけ迅速に学べるように、チームはこのモデルをベイジアン強化学習という別の AI のアプローチと組み合わせました。

また、チームはモンテカルロ木探索と呼ばれる手法も使用しています。これは、AI が最も有望な行動を探すための手法です。

セールプレーンの AI は2つの要素、すなわち、ハイレベルプランナーとローレベルプランナーから成ります。

ハイレベルプランナーは、環境の全要素を考慮し、セールプレーンが気流を求めてどこに移動すべきかのポリシーを作成します。セールプレーンが飛行のたびに収集する情報に基づき、時間の経過と共に予測の精度を向上させていきます。

「ハイレベルプランナーでは経験が重要です。過去の飛行の情報を取り込んでいくため、金曜日には木曜日よりも優秀になるのです」とコロボフは述べています。

ローレベルプランナーは、セールプレーンのセンサーのデータに基づき、ベイジアン強化学習を使用して、リアルタイムで気流を見つけてそれに乗ります。経験型学習と見なすことができるでしょう。

実現性テスト

この AI アルゴリズムの構築には、ワシントン州レドモンドのマイクロソフト本社における数カ月の作業が必要でした。

気候が温暖になり気流の状態が良くなると、チームはマイクロソフト本社近くの農場で限定的なテストを行いました。しかし、すべての理論が現実世界でどのように機能するかを知る機会が得られたのは、8 月中旬にネバダ州ホーソンの小さな飛行場に来てからのことです。

鷹を見つけた日までに、チームは 4 日間にわたり悪路を走行し、埃まみれの環境と強い日差しと戦いながら、何度も何度もセールプレーンを離陸させていました。

ジープの後方には、ロングボディの赤いフォードエクスペディションが、一時的オフィスとして、多数のコンピューター、現場での修繕のためのツール、4人の研究チームメンバーを載せて走っていました。エアコンをフル稼働させても、砂漠と多数のコンピューター機器が発生する熱に対抗するのは困難でした。

セールプレーンが頭上を飛行する時、システムのコアアルゴリズムを開発した研究インターンであるイアインギリアード（Iain Guilliard）とサングームン（Sangwoo Moon）は 4 台のラップトップを使ってその状態と気流などの環境の利用方法を監視しました。

ギリアードは数秒おきにセールプレーンの飛行パラメーターを呼び出し、ジープ内のメンバーは上空を見渡してセールプレーンの物理的位置を検証しました。コロボフ、そして、セールプレーンの気流予測モジュールを開発したマイクロソフトの研究者であるデバディプタデイ（Debadeepta Dey）が、ジープとセールプレーンの後ろを走る移動オフィスを交代で運転しました。

気流を捕らえることに加えて、システムは、近くの山、大きな湖、そして、テスト場所の近くで米国陸軍が所有している多くの軍需品倉庫といった障害物を避ける動作を計画する必要がありました。

オフィスでは予測することが不可能な様々な偶発的出来事や障害物がある現実環境は、システムにとって最良のテストベッドとなりました。

チームが直面し、解決しなければならなかった問題の多くは AI とは関係がないものでした。テストした中で最も大きかったセールプレーンは、通信システムの不具合が問題を起こしました。チームは、道路上の埃の中にあった磁気を帯びた粒子が電子部品に障害を起こしたと推測しています。

あるテストでは、ジープとロープでつないでセールプレーンを離陸させようとした時に、ロープが切れてしまいました。

問題が起こるたびに、チームは忍耐強く解決策を見つけ出しました。モーターを修理する、ロープを修復する、新しいバッテリーを見つける、セールプレーンが使えなくなると予備機を持ち出すなどです。

コロボフは、このような現実世界の問題こそが人々をこのプロジェクトに惹きつけている要素であると述べています。また、予期せぬ事態に遭遇しても、意気消沈する理由ではありません。
「これこそが、現実がシミュレーションとは異なる理由であり、私たちがここにいる理由です。私たちは予期しなかったことを学ぶためにここにいるのです」とコロボフは言います。

「アルゴリズムは私より優秀」

金曜の夕方にチームはホーソンの小さな飛行場に最終の報告会のために集まりました。

そのおよそ 1 時間前の最後のテスト飛行において、アルゴリズムは予測通りに機能し、セールプレーンを飛行させましたが、バッテリーが切れると、セールプレーンは砂とヤマヨモギの中に危険な速度で急降下し始めました。

AI のバックアップとして必要に応じて操縦を行なう役を担っていたロガーンは最後の瞬間にコントロールを確保し、ぎりぎりのところで墜落を回避できました。
報告会でロガーンは「室内でカウボーイハットをかぶるのは失礼かもしれませんが、まるで暴れ牛に乗ったような気分ですよ」とこぼし、チームの笑いを誘いました。
しかし、帽子を脱いで真剣な表情になると、砂漠での実験により、多くの進歩が得られたことを認めました。

「この夏、AIシステムは私よりもうまく操縦できる段階に達しました。アルゴリズムは私よりも優秀なパイロットです」とロガーンは述べました。