データのデバッグ：現実世界を反映するようにAIを訓練する方法、マイクロソフト

この記事はマイクロソフトのブログ記事で発表された内容である。

冒頭写真：マイクロソフトニューヨーク研究所上級研究員ハンナウォラック氏（Hanna Wallach）

人工知能（AI）は、企業における人材採用や裁判の判決など、重要な意思決定にも利用されるケースが増えている。

これにともない、マイクロソフトや機械学習コミュニティの研究者は、AIシステムの開発に使用されるデータが、現実世界を適切に反映し、意図せぬバイアスの混入を防ぎ、透明性、プライバシー、セキュリティを尊重して扱われることが求められている。

データは機械学習の燃料と言える。マイクロソフトのニューヨーク研究所の上級研究員ハンナウォラック氏（Hanna Wallach）は、データは機械学習モデルを訓練するために使用される現実世界を表現していると説明する。

ウォラック氏は、本年12月4日から9日までカリフォルニア州ロングビーチで開催されているAnnual Conference on Neural Information Processing Systemsの共同議長だ。

“NIPS”として知られるこの会議には、産業界と学術界から数千人のコンピューターサイエンティストが、データから学習するシステムにフォーカスしたAI分野である機械学習について議論するために出席している。

他の共同議長と共に公正性、説明責任、透明性に関するNIPSの新議題を紹介したウォラック氏は次のように述べている。

「私たちは、データセットがあたかも明確な境界を持つ厳格に定義されたものであるかのように議論を進めてしまいがちです。

しかし、現実には、機械学習が社会に普及し、データセットが社会的プロセスなどの実世界のシナリオから抽出されるケースが増すにつれ、明確な境界がなくなっています。

データセットを構築したり選択したりする時には、『このデータセットはモデル化の対象を適切に表現できているのか』を自問する必要があります。」

マイクロソフトのニューヨーク研究所の主任研究員ケイトクロフォード氏（Kate Crawford）はこの問題を「バイアス問題」と呼び、NIPSではこのテーマを中心とした招待講演を行うという。

「データを収集する人々は『このデータは男性と女性の行動を表している、このデータはあらゆる人間の行動や顔を表している』というような判断を行います。

データセットはこのような判断に基づいて作成されます。訓練用データセットに関する興味深い事実は、それが常に人間が必然的に持つ過失やバイアスを伴っているということです」

とクロフォード氏は述べている。

また、研究者たちは、AI研究者間における多様性の必要性という別の関連する課題にも取り組んでいる。多様性が高いチームが多様な問題を選択することで、より革新的な結果が得られるという研究結果があるのだ。

NIPSと同時開催される2つのイベントがこの課題に対応する。ひとつは第12回を迎えたWomen in Machine Learning Workshopであり、共同創設者であるウォラック氏が機械学習と社会科学の融合に関する招待講演を行う。

もうひとつは、マイクロソフトのニューヨーク研究所の博士研究員ティムニットゲブル氏（Timnit Gebru）が創設したBlack in AIワークショップだ。

「誰が真実を発見したかは問題ではなく、発見される真実はただひとつだけ存在するという科学分野もあります。AIの分野は必ずしもそうではありません。

まず研究者としてどのような問題を解決したいかを定義しますが、もし研究者の多様性がなければ、少数の似通った人々が重要と考える狭い範囲の問題だけを解決してしまい、世界中の多くの人々が直面する問題に対応できないリスクが生じます」

とゲブル氏は述べている。

機械学習のコア

NIPSの中核は、機械学習モデルとその訓練に使われるデータに関する研究成果についての数百もの論文を発表する学術会議だ。

マイクロソフトの研究者は採用された会議論文のうち43件の著者または共同著者になっている。

合成DNAに格納されたデータの取得の最新動向やユーザーのプライバシーを犠牲にすることなくユーザーのデバイスからテレメトリーのデータを反復的に取得する方法といったあらゆるいテーマが扱われている。

過去30年間にNIPSで発表された論文のほとんどが何らかの形でデータを扱っていることをウォラック氏は指摘し、「最近の機械学習はもはや合成されたデータセットや標準データセットを使用した純粋な学術界のトピックではなくなっています。むしろ、私たちの生活のあらゆる局面に関連する存在になっています」と述べている。

機械学習モデルを現実世界の問題や課題に適用することによって、公正性、説明責任、透明性へのフォーカスが重要になってきている。

マイクロソフトのニューヨーク研究所の上級研究員ジェンウォートマンボーン氏（Jenn Wortman Vaughan）は次のように述べている。

「どのニュースを読むべきか、どの商品を買うべきか、ローン審査が通るかどうかなど、人々はアルゴリズムが生活に与える影響についてより強く意識するようになっています。

このような意識の高まりにより、アルゴリズムが実際に何をしているのか、どこからデータを得ているのかに対する関心が高まるのも当然と言えます。」

バイアスによる問題

クロフォード氏は、データとは誰もが目で見て認識できるような形で世界に存在するものではないと説明する。

むしろ、データとは作られるものであり、科学者が自然界のデータをカタログ化し始めた時には情報をデータとして認識していたとクロフォードは指摘する。今日では、科学者はデータを人間の歴史の構成要素ともみなしているという。

NIPSにおけるクロフォード氏の招待講演では、司法機関で使用されていた、収監された犯罪者の再犯率を予測するアルゴリズムに、アフリカ系アメリカ人に対するバイアスがあったことを示した報道機関ProPublicaの調査などの事例を紹介し、そのようなバイアスにどのように対応すべきかを議論するとのことだ。

「単に信号を増幅したり、畳み込みニューラルネットワークをチューニングしたりすることでこの問題を解決することはできません。構造的差別の歴史とこれらのシステムにおけるバイアスを深く理解する必要があります」

クロフォード氏はこのように述べている。

クロフォード氏は、バイアスに対応する方法のひとつとして、AIシステムの考案、設計、展開、規制において、そのあらゆる影響を考慮した社会システム分析と呼ばれるアプローチを採用することを提唱している。

最近、彼女はNature誌の論考でこのアプローチについて解説している。

これは、コンピューターサイエンティストだけで解決できる問題ではないことをクロフォード氏は指摘する。

クロフォード氏はニューヨーク大学に拠点を置く全く新しい学際研究機関であるAI Now Instituteの共同創設者だ。

同機関は、AI、機械学習、アルゴリズムによる意思決定の社会的影響の研究のために、11月に社会学者、コンピューターサイエンティスト、法律家、経済学者、エンジニアを集結して立ち上げられた。

解釈可能な機械学習

AIと機械学習に関する懸念に対応する方法のひとつは、AIシステムの人間による解釈を容易にすることで透明性を高めることだ。

NIPSにおいてニューヨーク研究所の研究者ボーン氏は、機械学習の非専門家にとって機械学習モデルを解釈しやすく、理解しやすくしてくれる要素に関する実験について紹介するという。

「ここでのポイントはアルゴリズムによる予測に透明性を加えることで、意思決定者が特定の予測が行われた理由を理解できるようにすることです」とボーン氏は述べている。

たとえば、モデルに対する特徴や入力の数が、モデルが間違いを起こした時に人がそれを発見できる能力に影響するかどうか。

モデルがどうやって予測をしたかが見える方がブラックボックスである場合よりも、人々はモデルを信用するようになるだろうか。そのようなことが論点となる。

「この研究は、意思決定者がモデルの訓練に使用したデータ、そして、モデルの予測に本質的に伴う不確実性を理解できるよう支援するツールの開発に向けた最初のステップです」とボーン氏は述べている。

マイクロソフトのワシントン州レドモンド研究所のディスティングイッシュトエンジニアであり、シンポジウムの共同主催者であるパトリスシマード氏（Patrice Simard）は、解釈可能な機械学習の領域は、問題を単純でわかりやすいステップから構成される小さな問題に分割する技術を学ぶコンピュータープログラミングの世界からヒントを得るべきであると述べている。

「しかし、機械学習の世界は大きく遅れを取っています。まだ、適切な基盤がありません」（パトリスシマード氏）。

キャッチアップのためにシマードは機械教育（マシンティーチング）と呼ぶ手法を提唱する。すなわち、大量のデータからパターンを検出させるのではなく、問題を解決する時に機械に特徴を提供する。

たとえば、良いか悪いかだけを指定した数百万の自動車のイメージを使って自動車購入の機械学習モデルを訓練するのではなく、燃費や衝突安全性などの特徴をモデルに教えるのだとシマード氏は説明する。

この教育戦略は意図的なものであり、機械学習モデルの訓練に使用された概念の階層が結果として得られるとシマード氏は付け加えている。