NEC、熟練者の意思決定を複数の意図に分解して学習し、模倣するAI技術を開発

ディープラーニングに代表されるAIの発展に伴い、商品の検品検査や需要予測、顧客の嗜好分析などの領域で、AIの活用が増えている。

しかし、意思決定問題など、高度なスキルが要求される分野への適用においては、利用可能な品質になるまでに繰り返しのヒアリングや熟練者の無意識行動の反映等を含め、膨大な試行錯誤が必要となっており、導き出される結果と熟練者の判断レベルにも乖離があるという課題がある。

NECは、熟練者の過去の行動履歴データから、その認知・判断に基づく意図を意思決定モデルとして学習し、高度なスキルが要求される業務を効率化するAI技術を開発した。

同技術を、属人的な業務の意思決定プロセスに適用し業務負荷を軽減することで、業務スピードの向上が期待されている。

同技術は、逆強化学習（※1）のフレームワークをNEC独自のアルゴリズムで拡張し、従来、技術者が行っていた意思決定モデルの構築を自動化した。

人手では定式化が困難な意思決定問題に対して、熟練者の過去の行動履歴データから意思決定モデルを作成することで、熟練者と同等の判断を迅速かつ自律的に導き出すとしている。

同技術は、主に以下の領域に対して適用する。

RPA(Robotic Process Automation)を適用できない複雑な意思決定を必要とする業務領域(例：営業活動やプラント運転など)
人の判断・動作を物理的に再現する領域(例：自動運転やロボット制御など)

また、NECは今回開発した技術をTV放送局の広告スケジューリング業務（※2）に適用し、実データを使った性能評価を実施した。

NEC、熟練者の意思決定を複数の意図に分解して学習し、模倣するAI技術を開発 — TV放送局の広告スケジューリング業務

同業務は、各CMにおける要件・制限事項と、放送枠の活用方法など放送局側の要件の両方を考慮しなければならず、高度なスキルやノウハウが要求される。

NECはこの業務に同AI技術を活用した結果、経験豊富な熟練者と同等レベルの意思決定を10倍以上のスピードで行ったことを確認したとしている。

NECは今後、熟練者への負荷が高い様々な業務への適用を進め、人のパートナーとなりうるAIの開発に取り組むとしている。

本技術の特長は以下の通りだ。

複雑な意思決定を複数の意図に分解して学習

従来の逆強化学習では、状況に応じた複雑なモデルを構築することは困難であった。

今回発表された技術では、NECの最先端AI技術群「NEC the WISE」(※3)の1つである異種混合学習(※4)を拡張して、行動履歴データから複数の意思決定モデルとそれらの切り替えルールを学習したことで、熟練者が時と場合より柔軟に使い分ける判断基準を、非熟練者でも理解しやすいロジックで説明でき、熟練者と同等レベルの意思決定ができるとしている。

意思決定モデルと制約を同時に学習

熟練者と同等レベルの意思決定をするためには、大きなリスクを避け、効果を最大化する施策を選択する必要がある。

同技術では、熟練者が選択しない行動はリスクがあるため避ける制約、常に行っている行動を守るべき制約と見なし、熟練者が考慮し最適化しているモデルと組み合わせて同時に学習することで、安全で信頼性の高い判断と同等の意思決定ができるとしている。

学習環境の簡略化

一般に、逆強化学習を実行するためは、行動履歴データ、行動により最適化対象の状態がどう変化するかを模擬する状態遷移モデル、学習した結果の正誤を確認するための実験機やシミュレータが必要になるが、現実世界を精巧に模擬できる状態遷移モデルの作成は困難だ。

同技術では、熟練者・非熟練者の行動履歴データからのサンプリングにより意思決定モデルを評価できるモデルフリー方式(※5)を新たに開発した。

モデルフリー方式を採用することで、コストのかかる精緻な状態遷移モデルの準備が不要となり、学習環境を大幅に簡略化した。

※1　逆強化学習：報酬を基に最適行動を導きだす強化学習に対して、最適行動から報酬を推定するため逆強化学習と呼ばれる
※2　広告スケジューリング業務：広告宣伝の効果やスポンサーの好みを考慮しながら、複数のTVコマーシャルを限られた番組時間枠に最適に割当をする業務
※3　「NEC the WISE」(エヌイーシーザワイズ)は、NECの最先端AI技術群の名称。
※4　異種混合学習技術：ビッグデータに混在するデータ同士の関連性から、多数の規則性を自動で発見し、分析するデータに応じて参照する規則を自動で切り替える技術。これにより、単一の規則性のみを発見し参照する従来の機械学習では分析が困難な、状況に応じて規則性が変化するデータでも、高精度な予測や異常検出が可能。
※5　環境のダイナミクス(状態遷移モデル)が既知でない場合でも、強化学習・逆強化学習が適用できる方式