日立、論理的対話ができる「人工知能」の基礎技術を開発

株式会社日立製作所は、賛否が分かれる議題に対し、大量のテキストデータを解析し、肯定的もしくは否定的な意見の根拠や理由を英語で提示する技術を開発した。

本技術は、意見を述べる際に人やコミュニティに重要と考えられる健康や経済、治安などの価値に着目し、世の中の事象とそれぞれの価値との相関関係を用いて、大量のニュース記事から、より確実性の高い根拠や理由を抽出する。複数の価値を基準にすることで、ひとつの側面に偏ることのない根拠や理由を提示する。

本技術は、人とコンピュータの論理的な対話を可能とする人工知能の実現に向けた基礎技術であり、将来、企業が持つ文書や公開されているレポート、病院の電子カルテなどを解析し、業務を支援するデータや意見を生成するシステムへの応用が期待される。

近年、インターネットなどの情報通信技術や分析技術の発展にともない、各種センサーやPOSシステムなどから日々生み出されるビッグデータを解析し、有益な情報を抽出する技術が注目されている。新たな価値の創造や顧客の経営判断を支援するために、企業が持つ文書や公開されているレポート、病院の電子カルテなどのテキストデータを有効活用することが求められている。また、テキストデータを活用した人と論理的な対話が可能な人工知能の開発については、テキストデータにおける事象の持つ価値や、それらの相関関係を抽出することが難しいため、これまでその実現は困難だった。

そこで日立は、2014年に開発した、電子カルテから病態や病気の部位などの指定された情報を高精度で抽出する技術*1に今回新たに開発した技術を組み合わせることで、与えられた議題に対して、大量のニュース記事を解析し、より確実性の高い根拠や理由を英語で提示する技術を開発した。

開発した技術の概要は以下の通り。

(1)賛否の根拠や理由を抽出するための基準となる価値体系辞書を作成

人は賛否が分かれる質問に対して根拠や理由を述べる際に、人それぞれが持つ価値を基準としていることが推測される。そこで、人やコミュニティにとって重要と考えられる健康や経済、治安などの価値に着目し、多数の議題に対する賛成と反対の意見を登録したディベートのデータベース*2をもとに、価値を体系的に纏めた価値体系辞書を作成。具体的には、人やコミュニティが判断をくだす際の根本にある価値をリスト化するとともに、それらの価値と関係が深い単語をデータベースでの使用頻度に基づいて抽出し、価値に対してポジティブかネガティブかに振り分ける。さらに、使用頻度に応じて重要度を付与することで、価値とそれに関連する単語を体系的に整理した。例えば、「健康」という価値においては、「運動」はポジティブ、「病気」「肥満」はネガティブなどのように単語の関連性を体系的に整理している。

(2)大量のテキストデータから事象と価値の相関関係データベース*3を作成

大量のニュース記事の中で使用されている様々な文章の中から、記載されている事象がどのような価値をもたらしているかを抽出し、その事象が価値に与えた影響がポジティブかネガティブかを示す相関関係のデータベースを作成した。例えば、「騒音が健康被害をもたらす」という記事からは、「騒音」という事象が、「健康」という価値を抑制するというネガティブな影響を抽出し、データベースで管理する。この手法により、約970万件のニュース記事から、約2億5千万からなる相関関係データベースを作成した。
与えられた議題に対して、この相関関係データベースと(1)の価値体系辞書を活用し、大量のニュース記事の中から、議題と関連性の高い価値を複数選定する。全てのニュース記事の中から、この選定された価値のいずれかを含む文を検索することで、議題に対して根拠や理由となる可能性のあるものを抽出する。

(3)抽出した根拠や理由となる可能性のある文について確実性を算出

(1)の価値体系辞書と(2)の相関関係データベースを活用して抽出した文を、引用元の記載や数値データの有無、使われている表現などの指標を用いて数値化することで、議題に対して関連性の高いものであるかどうかを判定する。根拠や理由となる可能性のある全ての文にこの処理を行い、数値を算出することで、より確実性の高い文を選出し提示することができる。

(4)多数のアルゴリズムを非同期かつ分散的に実行するアーキテクチャ*4を構築

議題を与えられてから、根拠や理由を提示するまでの処理速度を速め、途中で停止することなく、指定した時間にある程度の回答を提示するために、主題の解析や価値の決定、記事の検索、根拠や理由を提示するまでの各プロセスにおいて、多数のアルゴリズムを非同期・分散的に実行できるアーキテクチャを構築した。本アーキテクチャは、一つのアルゴリズムを並列に分散処理するとともに、次のプロセスへの非同期な処理を行うことで、指定した時間内に根拠を抽出することができる。

本技術は、東北大学(総長：里見進)大学院情報科学研究科の乾・岡崎研究室の協力を得て開発した。日立は、2014年に開発した技術にこれら4つの技術を組み合わせることで、大量のテキストデータを解析し、肯定的もしくは否定的な意見の根拠や理由を提示する技術を開発した。今後、更なる研究開発を推進し、人とコンピュータの論理的な対話を可能とする人工知能の実現をめざす、としている。
なお、本成果は2015年7月26日～31日に中国で開催される国際会議 ACL-IJCNLP 2015 (53rd Annual Meeting of the Association for Computational Linguistics and 7th International Joint Conference on Natural Language Processing)にて発表される予定。

*1日立製作所ニュースリリース「電子カルテから病態や病気の部位などの指定された情報を高精度に抽出する技術を開発」2014年9月17日発表*2ディベート普及団体が提供する、トピックごとに肯定側・否定側の争点を纏めた巨大データベース「Debatabase」を使用*3相関関係をメタデータとして管理したもの*4情報システムの構成に関する基本設計および設計思想

【関連リンク】
・株式会社日立製作所