東芝、通常のカメラの画像から個々の荷物の領域を推定するAIを開発

物流現場における自動化が進む中、倉庫内の荷物の搬送のみならず、荷降ろしやピッキング等の作業もロボットによる自動化が進められている。こうした物流ロボットの市場は、2030年度に2020年度の約8倍の1,500億円規模になると予測されている。また、コロナ禍においては、倉庫のソーシャルディスタンスの確保のための物流ロボット導入がさらに加速することも想定されている。

作業の自動化には、自動荷降ろしロボットやピッキングロボットが多種多様な荷物の領域を正しく認識し、的確につかむことが必要である。このためには、対象となる荷物を上から撮影した場合に、乱雑に積み重なり荷物同士が大きく重なった画像からでも個々の荷物の領域を特定する技術が不可欠だ。

荷物の領域の特定には3次元センサーを用いた手法がある。奥行きの測定に優れているため重なり合う荷物の領域を高精度に特定することができるが、センサーのコストと事前学習のために必要となる3次元データの収集負担が高いという課題がある。低コストで荷物の領域を特定する方法として、通常のカメラで撮影した画像を使用する技術が注目されているが、コスト・効率と精度はトレードオフの関係にあり、荷物同士が大きく重なった画像においてはAIが1つの物体であると誤認してしまう危険性があった。

株式会社東芝は、通常のカメラ（可視光カメラ）で撮影した画像から、不規則に積み重なった物体の個々の領域（※）を推定するAIを開発した。

従来の物体領域抽出技術は、まず、画像内に含まれる各物体を長方形で囲み、物体の領域の候補に挙げる。次に、その長方形内に含まれる物体の領域を画素単位で推定することで、個々の物体の領域として認識する。しかし、荷物同士が大きく重なっていると物体を囲む長方形も大きく重なり1つの物体であると誤認してしまうなど、個々の荷物の領域を正しく認識できなかった。

今回開発した方式では、まず事前学習をしたニューラルネットワークを用いて、画像内の画素ごとに、物体の特徴を示す特徴値を求める。同じ物体に属する点であれば似た特徴値を、違う物体に属する点であれば異なる特徴値を出力する。次に、似た特徴値となった画素同士をまとめ、その中の代表点を物体の候補点とする。最後に、その候補点に対する物体の領域を画素ごとに推定する。

これにより、従来方式と比較してより微小な範囲を物体の候補点として捉えるため、上下に重なる2つの物体においても1つの物体としてまとめて捉えることなく、それぞれの領域を正しく推定することができる。これらの技術をベースとしたAIの開発により、荷物同士が大きく重なっているような状況においても、上から撮影した画像から個々の荷物の領域を推定することができる。

同AIを自動荷降ろしロボットなどの物流ロボットに搭載することで、荷降ろしやピッキングを正確に行うことが可能になる。また、同AIは通常のカメラによる画像から領域を推定するため、従来の3次元センサーを用いたAIと比較して事前学習の手間を削減する。現場での事前学習も必要なく、導入が容易だ。

公開データを用いた同AIの実証実験において、物体領域の推定における推定精度を従来方式から45％改善する性能を達成した。

今後東芝は、同AIを組み込んだ荷降ろしロボットを2021年度に市場投入する予定としている。