米Amazon、画像認識で表情まで判別できる「Amazon Rekognition」のサービス提供を開始

本内容は米国ラスベガスで開催された技術者・開発者向けのグローバルカンファレンス「AWS re:Invent 2016」で発表されたものである。

画像検出のための深層学習

コンピュータに人間と同じレベルの理解力を与えるのは、非常に難しいタスクであると証明されている。数十年に渡り、コンピュータ科学者は多くの異なる手法でこの問題に立ち向かってきた。今日、この問題に対する最良の解として広く同意を得られているのが、深層学習を用いたものだ。深層学習は特徴量の抽象化とニューラルネットワークの組合せを使うことで、魔法と見分けがつかないような結果をもたらす。

しかし、それには相応のコストがかかる。まず、学習段階で沢山の仕事をこなす必要がある。本質的には、学習ネットワークを幅広いラベル(“これは犬です”、”これはペットです”、等)が付いた例に与えることで、ラベルのついた画像の特徴量を関連付けることができる。この段階は、その規模と複数層のニューラルネットワークにつきものだが、計算量は莫大なものになる。学習段階が完了すれば、新しい画像を学習したネットワークで評価自体は高速で行える。結果は断定的なものではなく、慣習的に信頼レベル(0から100%)の形で表現される。これによって、どの程度の精度がアプリケーションに適切かを自分自身で判断することが可能だ。

Amazon Rekognitionの紹介

Amazon Rekognitionは深層学習を使って、Amazonのコンピュータビジョンチームが何年もかけて作ってきたもので、このフルマネージドサービスは既に毎日数十億枚もの画像を分析している。数千もの物体やシーンから学習されていて、今からアプリケーションで利用することが可能となっている。Rekognition APIを使ってコードを書き始める前に、Rekognition Demosを使ってサービスの性能を試すこともできる。

Rekognitionはスケールできるように設計されており、シーン、物体、そして顔を理解する。画像を1つ与えれば、ラベルのリストを返し、1つ以上の顔がある画像を与えれば、各顔の属性と共に境界を返す。この犬(Luna）の画像について、どのような情報が返ってくるかは画像の通りである。

見ての通り、RekognitionはLunaに対し高い信頼度で、動物、犬、ペット、そしてゴールデンレトリバーというラベルを付けている。ここで重要なのは、これらのラベルは全て独立していて、例えば犬と動物の間の関係性について深層学習のモデルが明示的に理解しているわけではなく、Rekognitionに示された犬が中心となっている学習データに対して、これらのラベルが同時に与えられていることが多かっただけである。

次にジェフ夫妻の画像の分析結果が下記の画像である。

Amazon Rekogitionは夫婦の顔を見つけていて、境界も設定できていて、そして妻が幸せであるということを教えてくれている。

また、Rekognitionは顔を比較して、与えられた画像の中にあなたが以前に認識をリクエストした顔が含まれているかを見つけることもできる。

これら全てはAPI関数の集合からアクセス可能となっている。例えば、DetectLabelsで最初の例、DetectFacesで2つ目の例をプログラム的に再現することができる。いくつかの顔を認識する準備として、IndexFacesを複数呼び出すことができる。その度に、Rekognitionは画像からいくつかの特徴量(顔ベクトルとして知られるもの)を抽出し、ベクトルを保存し、画像を廃棄する。1つ以上のRekognitionコレクションを作成して、関連する各顔ベクトルのグループを保存することができる。

RekognitionはAmazon Simple Storage Service (S3)に保存されている画像を直接処理することもできる。AWS Lambda関数を使って新しくアップロードされた写真を必要なスケールで処理することができる。AWS Identity and Access Management (IAM)でRekognition APIのアクセスを制御することができ、全てのAPIアクセスはAWS CloudTrailにログが取られる。

Rekognitionのアプリケーション

もし多数の写真の集合を持っているなら、Amazon Rekognitionを使ってタグやインデックスをつけることができる。Rekognitionはサービスなので、インフラについて設定や実行方法、またはスケールについて心配することなく、毎日数百万枚の写真を処理ができ、画像の検索や、タグベースの閲覧、そしてあらゆる種類の対話的な発見モデルを実装することができる。

Rekognitionをいくつかの異なる認証とセキュリティの文脈で使うことができる。従業員がセキュアな場所に入る時に、ウェブカメラに映る顔と社員バッジの写真を比較することができる。関心があったり心配している物体や人に対して、写真を解析することで視覚的な監視を実行することも可能となっている。閲覧者のデモグラフィックデータを収集する”賢い”マーケティング広告を作ることもできる。

【関連リンク】
・AWS re:Invent 2016
・AWS（Amazon Web Services）