Google、複雑な計器を読み取り施設点検を自律化するロボット向けAI「Gemini Robotics-ER 1.6」を提供開始

IoTNEWS編集部

2か月前

Google、複雑な計器を読み取り施設点検を自律化するロボット向けAI「Gemini Robotics-ER 1.6」を提供開始

製造現場や産業施設において、設備の巡回点検や計器の監視は依然として人手に頼る部分が多く、労働力不足や属人的なミスの削減が課題となっている。

近年、これらの業務を代替するロボットの導入が進んでいる。しかし、従来のシステムでは指示通りに動くことはできても、周囲の複雑な状況を理解し、アナログな計器の数値を読み取ったり、タスクが確実に完了したかを自律的に判断したりといった、物理世界における高度な推論が困難であった。

こうした課題を受け、Google DeepMindは、ロボットが物理環境を正確に認識・推論し、自律的な行動を可能にするAIモデルの最新版「Gemini Robotics-ER 1.6」を発表した。

「Gemini Robotics-ER 1.6」は、視覚と言語のアクションモデルや外部ツールと連携し、ロボットの高度な頭脳として空間認識、タスク計画、成功判定などを実行する推論優先モデルだ。

同モデルの最大の特徴は、ボストン・ダイナミクスとの協業から生まれた「計器読み取り（Instrument reading）」機能を搭載している点である。

これにより、アナログの圧力計や液面計、デジタル表示など、施設内に存在する多様な産業用計器に対して、AIが画像のズームや指差し、コード実行を組み合わせることで、針の位置や液量をサブ目盛り単位の高い精度で読み取ることができる。

この例では、モデルがポインティングとコード実行を使用してズームを行い、ゲージの読み取り値をサブティック精度まで導出する方法を示している。

このタスクは、温度計、圧力計、化学薬品の液面計など、常時監視が必要な多くの計測機器が設置されている施設の点検ニーズから生まれたものだ。ボストン・ダイナミクスのロボット製品であるSpotが、施設内の計測機器を巡回し、その画像を撮影する。

また、空間推論能力も強化されている。複数の対象物を正確に認識してカウントする「指差し（Pointing）」機能が向上したほか、俯瞰カメラとロボットの手首カメラなど複数の視点から得た情報を統合し、動的な環境下でもタスクの完了を的確に判断する「成功検知（Success Detection）」機能も強化されている。

「Gemini Robotics-ER 1.6」が、複数のカメラ映像から得た情報をもとに、「青いペンを黒いペンホルダーに入れる」というタスクが完了したかどうかを判断している。

さらに、エンタープライズでの運用に不可欠な安全性に関しても、過去最高水準を達成している。

例えば、「重量制限以上のものを持ち上げない」「液体を扱わない」といった物理的な制約を遵守した行動決定が可能になったほか、テキストや動画から潜在的な危険や怪我のリスクを予測する精度も向上している。

なお、同モデルは、すでにGemini APIおよびGoogle AI Studioを通じて開発者向けに提供が開始されているとのことだ。