マイクロソフト、文章から画像を生成するボットを開発

マイクロソフトは、文章から画像を生成する技術、「ドローイングボット」を開発した。

概要

Microsoft Researchで開発中の新しいAIテクノロジは、キャプションのような文章中の単語に注目して画像を生成する。arXiv.orgに投稿した研究論文のテストの結果では、このテクノロジは、従来のテキストから画像への変換手法の最先端技術と比較して、業界標準テストによる画像品質が約3倍に向上している。

研究者が「ドローイングボット」と呼ぶこのテクノロジは、家畜の群れる農村の風景などの普通の景色から、宙に浮く2階建てバスといったものまで、テキストからあらゆる画像を生成する。

各画像には、テキストの説明にはない詳細な背景などが含まれ、このAIには人工的な想像力を有していることを物語っているのだという。

ドローイングボットは、画像と自然言語処理という両分野の交差によるものであり、それに関連する同社の研究の集大成だという。

最初に、写真のキャプションを自動的に作成するテクノロジであるCaptionBotが作られ、次に、物体の位置や特性など画像に関する質問に回答するテクノロジが作られた(このテクノロジは視覚障がいを持つ人々にとって非常に有用となる)。

これらの研究には物体を識別するための機械学習モデルの訓練、行動の解釈、そして、自然言語による対話が必要だ。

洞察力も備えた画像生成

マイクロソフトのドローイングボットの中核にあるのは、GAN(Generative Adversarial Network:敵対的生成ネットワーク)と呼ばれるテクノロジだ。

このネットワークは 2つの機械学習モデルから構成され、生成ネットワーク、呼ばれる一方のモデルが文章の記述から画像を生成し、もう一方の「ディスクリミネータ」と呼ばれるモデルが、生成された画像の正当性を文書の記述に基づいて判断する。

生成ネットワークは間違った画像で識別ネットワークを欺こうとし、識別ネットワークは欺かれないように学習する。両者が協同することで、識別ネットワークは生成ネットワークを完璧な形に近づけていくという。

マイクロソフトのドローイングボットは画像とキャプションのペアから成るデータセットによって訓練された。これにより、モデルは単語とその単語のビジュアルな表現との関係を学習することができる。

GANは、たとえば、キャプションに鳥と書いてあった時には鳥を描くよう学習し、鳥の絵がどのようであるべきかを学習する。

GANは「青い鳥」や「常緑植物」といった単純な記述に基づいて画像を生成するのは得意だが、「頭が緑色で、翼が黄色で、腹が赤色の鳥」といった複雑な記述になると画像の品質は低下する。

これは、文章全体が生成ネットワークに対する単一の情報として扱われ、詳細な情報が失われてしまうからだという。結果として得られるのは緑、黄色、赤が混ざったぼやけた鳥の画像であり、記述に合致するものではなくなる。

人間が絵を描く時にはテキストの記述を何回も参照し、今描いている部分に関する記述に対して注意を払う。この人間の特性を獲得するために、研究者たちは人間の洞察力を数学的に表現したAttnGAN(アテンショナル GAN)と呼ばれるネットワークを構築。このネットワークは、入力テキストを個別の単語に分解し、画像中の特定の領域と対応付けることで画像を生成する。

このモデルは人間が常識と考えるものを訓練データから学び、画像中の想像に任せられた部分に学習した概念を当てはめる。たとえば、訓練データ中の鳥の画像の多くは鳥が木の枝にとまっているため、AttnGANはテキストの記述と矛盾しない限り、鳥が木の上にとまっている画像を描く。

テストのために、研究チームは「赤い2階建てバスが湖に浮いている」というキャプションをドローイングボットに入力した。すると、2つのデッキがあるボートと2階建てバスの両方に似た物体が山に囲まれた湖に浮かぶぼやけた画像が生成された。

これは、湖に浮かぶのはボートである一方でテキストではバスが指定されていることから、ボットが内部的に葛藤したことを示しているという。

実用的応用

テキストから画像への生成テクノロジには、画家やインテリアデザイナーのスケッチの補助や音声による写真編集ツールなどの実用的な応用が考えられる。研究チームは、コンピューティング能力の強化により、台本に基づいたアニメーションの自動作成などを実用化できると構想しているという。

現時点では、このテクノロジは完璧ではないとマイクロソフトは考えている。画像をよく見ればほとんどの場合に欠陥があるという。例えば、鳥のくちばしが黒ではなく青であったり、果物として売られているバナナが突然変異を起こしたようになっていたりするのだ。

これらの欠陥は、人間ではなくコンピューターが画像を作成していることの証拠でもある。とは言え、AttnGANの画像の品質は、以前の最高水準のGANと比較して約3倍の向上を達成しており、これは、人間の能力を高める汎用のインテリジェンスを実現する上での重要なマイルストーンだという。

【関連リンク】
マイクロソフト(Microsoft)

無料メルマガ会員に登録しませんか?

膨大な記事を効率よくチェック!

IoTNEWSは、毎日10-20本の新着ニュースを公開しております。 また、デジタル社会に必要な視点を養う、DIGITIDEという特集コンテンツも毎日投稿しております。

そこで、週一回配信される、無料のメールマガジン会員になっていただくと、記事一覧やオリジナルコンテンツの情報が取得可能となります。

  • DXに関する最新ニュース
  • 曜日代わりのデジタル社会の潮流を知る『DIGITIDE』
  • 実践を重要視する方に聞く、インタビュー記事
  • 業務改革に必要なDX手法などDXノウハウ

など、多岐にわたるテーマが配信されております。

また、無料メルマガ会員になると、会員限定のコンテンツも読むことができます。

無料メールから、気になるテーマの記事だけをピックアップして読んでいただけます。 ぜひ、無料のメールマガジンを購読して、貴社の取り組みに役立ててください。

無料メルマガ会員登録