富士通研究所、AIを活用してヒトやモノ等のデータの一つひとつが持つ特徴的な因果関係を発見する技術を開発

近年、医療やマーケティングなど様々な業務において、実問題解決のためにAIを活用して施策を立案することが増えてきている。解決したい問題の重要な要因を特定し、施策を立案するためには、属性AとBの間に関連があるという相関関係だけでなく、AだからBであるという原因と結果を表した因果関係に注目する必要がある。

これまでデータ全体に対する因果関係を推定する技術は、データ分析の分野での研究により開発されているが、多くの実問題解決のためには、一つひとつのデータが持つ因果関係を推定することが必要とされている。

例えば、医療現場におけるがん治療の場合、多くの患者それぞれにおいてがんの病態に影響する固有の遺伝子が発現しているので、患者一人ひとりに適切な治療方針を立案するためには、がん患者全員に共通する遺伝子ではなくがん患者一人ひとりに特徴的な遺伝子を特定することが必要となる。

また、マーケティングの現場におけるプロモーションの場合、多くの顧客それぞれが購入につながる異なった特性をもっており、顧客一人ひとりに適切な施策を立案するためには、顧客全員に共通する原因ではなく、顧客一人ひとりの原因を見い出すことが必要となる。

さらに、一つひとつのデータに対する特徴的な因果関係を正確に求めるためには、対応するヒトやモノに同じ条件のもとで異なる操作や作用を与えた結果を比較することが必要になる。しかし、一人のがん患者に対して異なる遺伝子を発現させたり、一人の顧客に対して異なるプロモーション施策を実施した結果を得ることは困難である。

したがって、異なる複数の患者や顧客のデータ全体から、一つひとつのデータが持つ特徴的な因果関係をどのようにして発見するかが課題となっていた。

株式会社富士通研究所は、ヒトやモノなどに関する様々なデータの一つひとつが持つ特徴的な因果関係をAIで発見する技術を開発した。

同技術は、因果関係よりも緩やかな関係性である相関関係に着目し、共通の相関関係をもつデータの集団をデータ全体からすべて抜き出す。データの属性数が50種類を超えると相関関係の最大数は1,000兆を超えるが、富士通研究所が開発した重要な組み合わせを見つける技術「Wide Learning(※1)」を用いることで、データ中のあらゆる相関関係の発見を可能とし、そのようなデータの集団を数秒ですべて抽出することができる。

例えば、がん発症の原因を調べる場合、遺伝子の発現の有無を属性として、発現している遺伝子の組み合わせを探索することにより、共通の相関関係をもつ患者の集団を抜き出す。

次に、抜き出したデータの集団に対して因果関係を推定し、それぞれの因果関係における属性の種類や因果関係の強さ、向きなどを比較する。これにより、因果関係の珍しさを定量的に評価し、珍しさのスコアが高いものを特徴的な因果関係として網羅的に発見する。

これら2つの技術により、特徴的な因果関係をもつデータの集団をすべて抽出できるため、因果関係を知りたい新規のデータに当てはまる集団を特定することで、一つひとつのデータの特徴的な因果関係を求めることができる。

これまでの遺伝子解析の研究では、大腸がんの中には従来から知られている通常のタイプに加え、免疫反応が強いタイプ、代謝異常があるタイプなど複数の種類があり、それぞれで発現する遺伝子は異なっていることが明らかになっている。

今回、琉球大学 医学部の協力のもと、TCGA(※2)およびGTEx(※3)によって公開されているデータから、約1,000人分の大腸がん組織と通常の大腸組織における遺伝子発現データ(※4)を抽出し、これに同技術を適用させ大腸がんの種類を区別する際に重要とされている遺伝子を自動で特定できることを確認した。

同技術により、医療やマーケティング以外にも、金融における顧客ごとの与信のスコアリングや、製造における製品ごとの不良原因の特定などが可能となる。

今後は医療分野だけでなく、マーケティング、製造、金融など様々な現場における2020年度中の業務適用や検証を進めるとともに、富士通株式会社のAI技術「FUJITSU Human Centric AI Zinrai」を支える新たな機械学習技術として2021年度の実用化を目指すとしている。

※1 Wide Learning技術:仮説の網羅的な列挙により、判断根拠の説明や知識発見が可能なAI技術。
※2 TCGA:The Cancer Genome Atlasの略称。米国がん研究所(National Cancer Institute: NCI)と、米国ヒトゲノム研究所(National Human Genome Research Institute: NHGRI)の共同プロジェクト。実証実験では、TCGAの公開する33種類のがん種についてのサンプルの遺伝子発現量データを活用。
※3 GTEx:米国ブロード研究所などの複数の研究機関から構成される国際コンソーシアム。実証実験では、GTExの公開するヒトの体組織ごとの遺伝子発現量データを活用。
※4 遺伝子発現データ:今回の実証実験を目的に、琉球大学医学部にて各遺伝子の発現量の多い・少ないの基準を判断し独自に作成したデータ。

プレスリリース提供:富士通研究所

Previous

IDC、2021年の国内IT市場においてクラウドセントリックITや非接触/非密集型ソリューション等の10項目が主要になると発表

リンクジャパンと美和ロックが協業、鍵や家電・建具をアプリ1つで操作可能なスマートホームを実現

Next