日立、人の実績データに頼らず自己競争により学習を行うAI技術を開発

株式会社日立製作所は、複数のAIを相互接続したAI群でビジネスを表現し、AI群同士がコンピューター上で自己競争を行うことで、人が用意した実績データに頼らずに学習を行うビジネス向けのAI技術を開発した。

サプライチェーン上の複数の企業によるビジネスを模擬した「ビールゲーム」に同AI技術を適用したところ、人の経験に基づいた判断と比べて、在庫や欠品による損失を約1/4に低減できることが確認された。

すでに囲碁などの対戦型ゲームでは、自己競争によるAIの学習の有効性が示されていたが、今回、不確定要素の多いビジネスの問題についても、自己競争を活用した学習が有効であることを示すことができたということだ。

背景とAI技術の概要

通常、ディープラーニングなどを用いたAIは、大量の実績データから学習することで予測や判断を行う。そのため、大量のデータが入手できない場合には、正確な予測や判断が難しくなるという課題があった。

囲碁などの対戦型ゲームにおいては、AIが自己競争によって自ら生成した大量のデータを用いて学習することで賢くなることが確認されているが、不確定要素の多いビジネスの問題に適用できるかは不明だった（※1）。

今回、日立は、ビジネスの問題に適用可能な、自己競争を活用して学習するAI技術を開発。今回開発したAI技術では、ビジネスに関わる企業を、ディープラーニングを用いたAIエージェントで表し、複数のAIエージェントを相互接続したAI群でビジネスを表現するという。

各AIエージェントは、置かれた状況を考慮して、互いにモノや情報のやりとりを繰り返すことで、損失低減などの与えられたアウトカム（※2）の向上に有効なアクションを学習する。

学習を行う際には、AI群をコンピューター上に複数生成し、同時並行で学習を実行。そして、それぞれのAI群の全体のアウトカムを競わせる「自己競争」を何千回と繰り返すことで、より良いアウトカムを追求するという（図1）。

日立、人の実績データに頼らず自己競争により学習を行うAI技術を開発 — 図1：複数のAI群による学習と自己競争

AI技術の特長

同AI技術は、次の特長を有する。

1. 学習管理機能によりAIエージェントの学習を制御し、AI群全体のアウトカムを向上

今回開発したAI技術は、相互接続された複数のAIエージェントのそれぞれの学習を管理し、各AIエージェントの学習が、相互に悪影響を与えることを防止する学習管理機能を備えている。

この機能は、各AIエージェントの学習のタイミングの制御を担い、学習の初期段階ではひとつのAIエージェントのみに学習させ、徐々に学習するAIエージェントの数を増やしていく（図2）。

これにより、AIエージェントが同時に学習する時に生じる競合を避け、AIエージェント同士の協調を学習させることができ、その結果、AI群のアウトカムの向上に繋がるという。

2. 学習モデルを交叉させることでより優れたモデルを生成し、AIエージェントを進化させる技術

AI群を構成するAIエージェントが何度も学習を繰り返すと、各AIエージェントの学習結果（モデル）が偏ることでAI群のアウトカムが個別最適の状態に陥り、アウトカムの向上が停滞する現象が発生する。

そこで、コンピューター上に複数生成されたAI群の間で、AIエージェント同士のモデルのパラメータを掛け合わせる（交叉）ことで、新たなモデルをもつAIエージェントを生成し、新たなAI群を構築する（図3）。

新たに構築したAI群を含め、複数生成されたAI群のアウトカムを比較し、アウトカムの劣るAI群は消滅させ、アウトカムが優れるAI群を残す処理（自己競争）を繰り返す（図4）。

これにより、より良いアウトカムを追求することができるという。

検証結果

同AI技術の有効性を、サプライチェーン上の複数の企業によるビジネスを模擬した「ビールゲーム」で検証した。

「ビールゲーム」は、小売、卸売、仲卸、工場の独立した4つのエージェントが発注量をそれぞれ決め、サプライチェーン全体で在庫や欠品といった損失を最小にすることを競うものだ。

このゲームでは、予測不能な需要変動の影響を常に受けるのに加え、各エージェントは在庫や欠品などの情報を互いに共有せずに発注量を決めざるをえないという制約があるため、ゲーム参加者間で状況が共有される囲碁のようなゲームにはない難しさがある。

このゲームで、熟練者が自らの経験に基づいて発注判断を行った場合には、35週で平均2,028ドルの損失を出すことが報告されているが（※3）、同AI技術を用いることで、損失を489ドルまで低減できることが確認された（※4）。

この結果は、ビジネスにおいても自己競争により学習するAIが有効であることを示しているという。

※1　過去のデータに加え、新たなアクションを行うことで新たなデータを生成しながら学習する強化学習の研究も行われているが、ビジネスなどの責任を伴う実問題においては、アクションの探索には制限が大きいことが強化学習の適用の課題となってきた。

※2　アウトカム：ビジネスにおいて、向上させたい（最大化、あるいは最小化したい）数値に相当し、問題に応じて人が設定するもの。

※3　各エージェントは情報を交換せずに週に一度発注し、損失の計算では在庫と欠品の損失をそれぞれ1個あたり0.5ドルと1ドルとする。
（J. D. Sterman, “Modeling Managerial Behavior: Misperceptions of Feedback in a Dynamic Decision Making Experiment”, Management Science, Vol. 35, No. 3, pp. 321-339, 1989.）

※4　AIによる場合も、人と同じく、4エージェントの間で情報の共有は行わないというルールで行った。

【関連リンク】
・日立（HITACHI）