東芝、少量データの「オフライン強化学習」でロボット操作を制御するAIを開発

ロボット制御に用いられる機械学習手法の一つである「強化学習」は、カメラで取得した画像からロボットの操作を自律的に学習でき、複雑な作業の自動化に期待されている。

しかし、高精度な作業を実現するには、AIがロボットを実際に稼働させ、試行錯誤して学習していく過程で安全上の問題が生じる可能性がある。

そこで、あらかじめ作成したデータから制御を学習し、試行錯誤を必要としない「オフライン強化学習」が注目されている。オフライン強化学習で精度を上げる手法としては、想定される物の配置や作業のパターンを網羅的に学習する方法が一般的だが、数千以上の学習データが必要であり、その学習データの作成に数週間から1ヵ月以上かかるという課題がある。

こうした中、東芝は、ロボット制御に用いられる機械学習の一つである「オフライン強化学習」において、少量の画像データから複雑なロボット操作を制御するAI技術を開発した。

このAIは、100程度の少量の学習データで精度を上げることが可能で、半日ほどで学習データを作成することができるようになる。

この手法では、ロボットアームの操作範囲を撮影した画像からロボットアームの移動先を決定する1段目の制御と、移動先周辺のみを切り取った画像から移動先を補正する2段目の制御により構成される、2段階制御を学習する。

東芝、少量データの「オフライン強化学習」でロボット操作を制御するAIを開発 — 開発された2段階制御学習手法の概要

従来手法は1段目の制御のみを学習して制御を行っていた。今回開発された手法では、2段目の制御の学習において、注目領域のみを含む画像が入力されること、データの水増しができること、効率的に学習可能な移動先の補正のみを学習対象としていることにより、より高い精度のロボット操作が可能になった。

この手法を用いてロボット操作100回の画像データで学習したロボット制御AIを、公開ベンチマーク環境（RLBench）でシミュレーション評価したところ、ピッキングや物を置くなどの8種類の作業をそれぞれ500回行った際の平均成功率が、従来手法の36％から72％に大幅改善した。

作業別では、従来手法では最高79%の成功率が、今回の手法では最高99%に向上した。また、2段目の学習データとなる切り取り画像は、1段目のロボットアームの移動先決定と同時に自動的に生成されるため、追加作業が不要だ。

100回分の学習データであれば、半日ほどで作成することが可能であり、学習データの作成に必要なデータが少ない分野や、試行錯誤してデータを作成することが難しい分野などでの活用が期待されている。

なお、このAIは、理化学研究所革新知能統合研究センター長兼東京大学大学院新領域創成科学研究科教授の杉山将氏との共創の成果であり、この技術の詳細を、2024年5月13日から17日にかけて横浜で開催されるロボティクス分野の国際学会「ICRA（IEEE International Conference on Robotics and Automation）」にて5月14日に発表される。