マイクロソフトは、AIにおけるシェアリング・エコノミーというテーマにおいて、同社がデータセットと測定基準を公開した理由について報告した。
Microsoft Research Maluubaのサミラ エブラヒミ カホウ氏(Samira Ebrahimi Kahou)のチームは、「人工知能が円グラフなどのグラフ内の情報を正確に推定できるようにするにはどうすればよいか」という問題の解決策を考案した。
しかしその際、カホウたちは、「この研究分野がきわめて新しいため、仮説を検証するためのデータセットが存在しない」という問題に直面したのだという。そこで、カホウたちはそのデータセットを作ることにした。
今秋にカホウのチームが一般公開したFigureQAデータセットは、近日マイクロソフトの研究者とエンジニアが開発して一般公開した、AIシステムのテストのためのデータセットや測定基準などの多数のツールの一つだ。
世界中の研究者が、会話の翻訳や人が次にタイプする単語の予測などを自分のAIシステムがどれほど適切に実行できているかを評価するために、これらのデータセットを活用しているという。
このツールにより、学術界の研究者や産業界の専門家といった人々が自分のシステムをテストし、他者と比較し、互いから学ぶためのコード化された情報が提供されるとカホウのチームは述べている。
また、マイクロソフトの研究者たちは、テクノロジ業界の伝統的なやり方に慣れた人にとってはこのような情報の共有は驚くべきものかもしれないが、学術界と産業界のプレイヤーが相互に深く関連するAIの分野では、このようなオープン性がますます一般的になっていると見解を述べている。
なお、多くのAI専門家が、このようなコラボレーションの文化がAI分野の進展に重要であると述べているという。この分野の初期のブレークスルーの多くは競合する研究機関の研究者が知識を共有し、他者の成果を活用したことから生まれているとのことだ。
また、マイクロソフトによると、データセットや測定基準を開発しているチームの多くは、他者が作成したデータセットにも依存していることから、一種の恩返しをしていると述べているという。
ジョージア工科大学の助教授であり、Facebook AI Researchの研究者であるデバイ パリク(Devi Parikh)は、Maluubaが最近公開したFigureQAデータセットは、複数タイプのAIを必要とする問題への対応を可能にしてくれるため、きわめて有用であると述べている。
「研究者としての視点で言えば、AIの複数分野が交差する領域で問題を解決することへの関心がますます高まっています」とパリク教授は述べている。
一方で、AI分野の研究者やエンジニアには、共有することが重要であるという情報もある一方で、競合する研究者が使用するデータに関する情報を公開することなくシステムの比較を行ないたい時があると考える人もいるという。
マイクロソフトが昨年買収した SwiftKeyのシニアソフトウェアエンジアリングリードのダグ オーア氏(Doug Orr)は、人が次にタイプする文字の予測をシステムがどの程度適切に行なっているかを評価する標準的方法を、同氏のチームで構築する意向だった述べている。この機能は、人のコミュニケーションスタイルに基づいてパーソナライズされた予測を行なうSwiftKeyのシステムの主要構成要素だ。
同チームはデータセットをシェアするのではなく、研究者が任意のデータセットで使用できる測定基準を作成。GitHubで公開されている評価基準により、研究者は独自のデータをシェアすることなく自分の改善を測定し、他者の結果と比較することができるという。
オーア氏は、システムが長期的にどれほど進化しているかを正確に把握でき、研究分野の誰もが他者と比較した自分の位置を適切に把握できるようになる点で、測定基準は社内的に恩恵をもたらしていると述べている。
Bingチーム出身のマジュムダー氏は、一般公開を行なわない内部向けデータ、一般公開のために構築したデータセット、そして、SQuADデータセットなどの他者が作成したデータセットというすべての基準データを使用してシステムをテストできる点に価値を認めている。
他の部署から要員がこのチームに参加する時、チームは製品を開発しながら AI研究のブレークスルーも達成するというハイブリッドな領域に参加しているという事実に慣れなければいけないことが多いと同氏は述べている。
また、「(AI の領域で)私たちが行なっているのは工学と科学の中間にあるものです」と同氏は述べている。
【関連リンク】
・マイクロソフト(Microsoft)
無料メルマガ会員に登録しませんか?
技術・科学系ライター。修士(応用化学)。石油メーカー勤務を経て、2017年よりライターとして活動。科学雑誌などにも寄稿している。