信州大学と東北大学、「被災環境下での捜索・状況確認活動を支援する画像認識システム」を開発

内閣府総合科学技術・イノベーション会議が主導する革新的研究開発推進プログラム（ＩｍＰＡＣＴ）タフ・ロボティクス・チャレンジ（プログラム・マネージャー：田所諭）の一環として、信州大学山崎公俊助教、アーノード・ソービ研究員、東北大学田所諭教授のグループは、被災地での捜索活動などに用いる遠隔操作ロボットで撮影した画像から、周囲に存在するものの種別や探索対象の発見を支援するための画像認識システムの開発に成功した。本システムは、ヘビ型ロボット、サイバー救助犬、ヒューマノイドロボットなど、災害環境で作業をおこなう様々なタイプのロボットへ搭載可能だ。

本システムのポイントは以下の4つである。

ポイント1. 不定形物が乱雑に存在する環境で撮影された映像から、どこに何の物体が写っているか、表面状態はどうか、を自動で識別。

ポイント2. 捜索対象（要救助者など）が存在しそうな領域の絞り込みに、効果を発揮。

ポイント3. 学習のために必要とするデータ量が少なく、初めての現場でもすぐに効果を発揮。

ポイント4. 操作者との対話を通して識別能力を向上・拡張していくことが可能。

＜研究の背景と経緯＞
熊本地震や阪神淡路大震災に代表される大規模地震災害では、倒壊した建物内に取り残された人の発見と救助が大きな課題である。信州大学山崎助教、アーノード研究員、東北大学田所教授を中心とするグループは、ImPACTタフ・ロボティクス・チャレンジの共同研究開発の一つのテーマとして、被災地での捜索活動を支援するための画像認識手法を研究している。その一環として、災害現場ですぐに利用できる捜索活動補助のための画像認識システムの開発をすすめてきた。被災木造家屋を模擬した評価試験フィールドや、森林環境、熊本地震での倒壊家屋で撮影した画像データなどに対して検証を行い、一定の性能が確認された。ImPACTタフ・ロボティクス・チャレンジで研究開発を進めるレスキューロボットは、1995年の阪神淡路大震災を契機に田所教授のグループのグループが提唱し、世界を牽引してきた研究分野である。田所教授は、災害ロボットの研究が世界的に高く評価され、IEEEFellow（米国電子技術協会IEEEの最高位メンバー資格）に昇格している。また、山崎助教のグループは布などの不定形物の認識・操作に関する研究で成果を上げてきており、平成28年度文部科学大臣若手科学者賞などを受賞している。今回の成果は、そこで培った技術を活用・発展させたものだ。

＜研究成果の概要＞
本システムは、倒壊家屋などの被災現場を撮影した映像を解析し、その結果を操作者に提示することで、捜索活動を支援する。被災地での捜索活動などにおいては、瓦礫の中から人や物体を発見するために、ロボットやビデオスコープで撮影した映像の解析が重要になる。近年、人工知能技術の発達により画像認識分野では相当な進歩が見られるが、その一方で、映像から意味のある情報を得るための機能（画像認識器）を構築する作業に手間と時間がかかり、被災現場のような乱雑な環境への素早い適用が困難だった。これは災害対応において特に大きな障害になる。田所教授のグループはこの課題に対し、映像から認識能力を得る処理（学習処理）を効率化することで、少ない事前情報から画像認識器を作り出す技術を開発した。この技術により、初めての被災現場でもすぐに効果を発揮でき、映像解析や重要情報の発見といった作業への利用が期待できる。さらに本開発では、瓦礫を構成している材質を推定する技術や、それらの表面状態（濡れているのか、土で汚れているのかなど）を数値化する技術も開発された。これらの技術により、崩れやすい場所や滑りやすい場所を発見しやすくなり、ロボットによる捜索活動における災害現場での崩落などの二次被害を防ぐことに役立つと考えられている。

ロボットに搭載したカメラから送られてくる映像は、それら特有の視点や狭い視野で得られることが多く、現場を正しく把握することは容易ではない。本システムでは、映りこんでいる物体の種類などを同定し強調表示することで、操作者の環境認識の支援が可能となっている。また、すでに現場に詳しい人から環境認識に関する指示を受けて、環境認識能力を短時間で獲得することも可能だ。

捜索支援：特定の対象の捜索をおこなう場合、（救助犬に匂いを嗅がせるように）その対象が映っている画像、または類似のものをシステムに事前に学習させることで、対象がカメラ映像に映ったときにアラートを鳴らしたり、記録を取ったりすることが可能となっている。それにより、遠隔操作中に対象の見逃しを防止する目的や、録画映像を通して重要情報を発見する目的への利用が可能。また、崩れやすい場所・滑りやすい場所を判断する作業、遠隔操作者が継続的には映像を閲覧できないような捜索状況での利用も有効と考えられる。

本成果は、以下の３つの研究開発成果から構成される。
（１）カメラから撮影をおこない、その映像に対して本技術により処理を行う。入力映像に対し、ひとまとまりとみなせる領域を検知し、検知領域を色付けて強調。検知領域が意味のあるものと判断できる場合、操作者はその領域にカテゴリ名を付ける。この作業により、本システムは対象領域を学習し、同じカテゴリに所属する可能性が高いと判断される画像領域を同じ色で強調するようになる。操作者は必要に応じて領域を修正することもできる。このようなカテゴリ名の付与および誤認識の修正作業を通して、現場の映像から迅速に認識能力を獲得させることができる。認識能力が十分に得られた後は、認識のみのモードでシステムを動作させることで、捜索活動・状況確認活動を続けることが可能である。

（２）木や草が乱雑に生えていたり、枯れ葉が堆積している森林環境の環境認識を行うには、乱雑なテクスチャ（模様）から有意なパターンを見つけ、種別をおこなうことが有効である。乱雑なテクスチャ状況下での環境認識を実現するため、田所教授のグループは、以下に示す２段階の認識処理を開発した。入力画像を等間隔に区切り、その区切り（グリッドと呼ぶ）ごとに種別（犬、地面、木々、木の幹など）をおこなうことで、画像をおおまかに分割する。その後、２段階目をおこないます。各グリッド内部の画素ひとつひとつに対して、種別（木の幹、葉、草、空など）を行う。原画像の風景が、細かく分割処理され、森林のような乱雑な環境下での環境認識が可能になる。

（３）被災した建物内部の映像の解析を行う場合、材質などの種別に加え、汚れた場所・濡れた場所の検出や、汚れ・濡れの程度の推定を適切に行うことで、現場に入って作業を行う人々の安全性向上につながる。しかし、建材や内装に利用する材質は、特徴的な模様が少なく、撮影画像からこれらの情報を得ることは容易ではない。瓦礫構成物の表面状態の記述と種別本研究開発では、この課題の解決に向けて画像から有意なテクスチャ情報を得るための方法を開発した。水や土をつけた建材等の画像から、材質等や表面状態の違いを適切に表現できる手法を開発した。入力画像をグリッドに分け、テクスチャの違いによって各グリッドを色分けを行う。表面状態に係らずブロック、木板、背景紙がテクスチャ情報に基づいて分類することが可能になった。

次ページ：技術について

＜技術について＞
（１）カテゴリ注1)情報が与えられている訓練データから認識器を構築する手法（教師あり学習）は、高い認識性能が見込める一方で、大量の訓練データを必要とする。そのため、どのようなカテゴリが存在するのかを事前に知ることが難しい被災現場では、十分な訓練データを集める余裕がなく、捜索活動に迅速に対応することが困難だ。一部の訓練データのカテゴリが未知でも利用できる手法（半教師あり学習）では、訓練データのハードルは緩和されるが、データの分割処理に時間がかかるため、映像の実時間処理が困難であった。

現場に素早く対応するための認識システム技術的課題は以下となる。

従来の教師あり学習・半教師あり学習では、認識器を構築している最中に新たなカテゴリを追加したり、複数のカテゴリを一つに融合、あるいは一つのカテゴリを複数に分割することが困難だった。上記の課題に対し、本研究開発では、捜索すべき環境の訓練データが手に入れにくいという前提の下で、操作者からの少ない指示に基づき、指示されたカテゴリを見分ける能力をできるだけ早く獲得する画像認識システムの開発を行った。

開発したシステムの核となるのは、畳み込み自己符号化器注2)（以下「符号化器」）と呼ばれるニューラルネットワークだ。符号化器の役割は、入力画像を分割して得た小さな画像領域から、カテゴリ間の区別が明確になるような「特徴ベクトル」を生成することである。画像領域の特徴ベクトルが、操作者からカテゴリ名が付与された画像領域の特徴ベクトルと類似する場合は、その画像領域には同じカテゴリ名を付与する。このような仕組みのもとで高い認識性能を得るための鍵となるのは、画像領域から生成される特徴ベクトルの「類似性」をうまく操作することで、システムの識別結果を操作者の感覚に沿わせる部分である。本成果である符号化器では、以下の二つの学習プロセスを並行して実行することで、上記の実現を可能にした。

A)カテゴリ情報が与えられていない訓練データから有意な法則を抽出する手法（教師なし学習）を用いて、入力画像の圧縮・展開を学習させる。この学習処理により、入力映像をうまく特徴付ける特徴表現が獲得される。符号化器は多層構造を持ち、画像データが層を通るにつれて、より一般化された特徴表現になる。その全ての層を通して得られた特徴ベクトルを利用することにより、細かいテクスチャに特徴付けられるカテゴリも、大まかな形に特徴付けられるカテゴリも、認識できるようになる。以上に述べた教師なし学習処理は随時行うものだが、この処理にはどの画像領域がどのカテゴリに所属するかの事前情報は不要である。また、あらかじめ用意されたさまざまな映像（例えば同じカメラで撮られた映像や多様な被災現場の映像など）から、事前に高性能の符号化器を得ておくことも可能だ。

B)今回新たに開発した「表現ずらし」という学習法を用いる。「表現ずらし」では、カテゴリ名が付与された画像領域から特徴ベクトルを得たのち、カテゴリの「類似性」に基づいてその特徴ベクトルを少しだけ操作する。まず、各カテゴリに所属する全画像領域の特徴ベクトルから、各カテゴリを特徴付ける多変量確率分布を計算する。その後、すでに付与されているカテゴリ名とは別に、特徴ベクトルとカテゴリの確率分布だけを利用して、もとの画像領域にカテゴリ名を自動で付与する。ここで、操作者から付与されたカテゴリ名とシステムが自動で付与したカテゴリ名が合致しない画像領域に関しては、符号化器がそのカテゴリを区別する特徴を掴んでいないと判断する。その場合、誤ったカテゴリ名が付与された画像領域の特徴ベクトルと、実際そのカテゴリに所属する画像領域の特徴ベクトルの距離が増えるように、符号化器の更新処理を行う。この新技術により、操作者から指示されたカテゴリを見分ける識別性能を獲得していく。

入力映像に対し、学習処理B)で述べた確率分布を用いて各領域の所属カテゴリを推定・表示する。学習処理B)の効果により、所属カテゴリの推定は単純になり、実時間処理が可能である。更に、二つ学習処理を一つの効率の良い更新処理にまとめることにより、学習しながらでも数fpsの実時間処理を可能とした（GPUを使用した場合）。

（２）技術的課題は基本的に（１）と同じだが、本技術は特に、地面や樹木などで見られる乱雑なテクスチャへの対応を重視している。本方式で重要なのは、グリッド単位、ピクセル単位でどのような特徴量を用いるかだ。森林画像では再現性のある形状情報を得ることが難しいため、形状依存の少ない特徴量が必要となる。本技術では、テクスチャ情報と色情報の組み合わせを識別に利用することとし、テクスチャに関しては、さまざまなエッジ検出器の集合（フィルタバンク）を利用する。そして、フィルタバンクを利用して得られた反応値の列から頻度ヒストグラムを算出することで、形状不変性を有する特徴ベクトルを生成する。フィルタバンクを利用する場合の課題のひとつは処理時間がかかることだが、この課題を解決する手法も開発された。処理時間がかかる理由は、多数のフィルタカーネルを用意し、それぞれで畳み込み積分計算をおこなう必要があるためである。一方で、本研究の目的である被災現場での適用を考えると、小型軽量で持ち運びが容易な計算機を用いて、遠隔移動体の使用者がストレスなく見られるフレームレートで処理できることが求められる。そこで、本技術では、畳み込み積分の部分をボックスフィルタを用いて近似している。これにより、GPU等のハードウェアマルチスレッド環境を利用しなくても、グリッド単位の識別を6～7fpsでおこなうことが可能になった。本識別処理におけるそのほかの特徴として、条件付き確率場（CRF）を導入したことだ。一つ一つのグリッドを個別に識別するのではなく、周囲のグリッドとの関連性を考慮することで識別率を向上させている。

（３）瓦礫構成物の表面状態の記述と種別建材や内装および室内に配置されることが多い材質は、森林の場合と同様に決まった形状を持っていないため、表面性状や木目などによる見た目の違いから識別などをおこなう必要がある。本研究開発では、細かなテクスチャの違いを記述するための識別手法（テクスチャ解析手法）に着目し、フィルタバンク2種と色情報の組み合わせにより、瓦礫を構成する材質の識別を可能にした。評価に利用された材質は、コンクリートブロック、MDF材、木板など10種類程度である。ただし、半透明の物体（ビニール袋）、光沢の強い物体（アルミ板）などの識別は未だ難しく、今後の課題である。また、本グループでは、材質表面の水や泥による汚れ度合いを数値化する技術も開発した。材質表面が汚れることにより見た目が変化しても、各材質が持つもともとのテクスチャが激しく欠損しないかぎり、材質を推定することが可能である。

＜今後の展開＞
開発した技術は、事前に訓練データを用意しづらいタスクへの対応に適している。また、倒壊家屋内部などのような雑多な環境でも機能するよう工夫をこらしているので、従来手法では十分な認識性能が得にくい対象にも利用できる可能性がある。災害対応だけでなく、インフラ点検、農業、林業、水産業などへの展開も考えられている。

注１）カテゴリ：倒壊家屋で撮影した画像には、壁、机、本、衣類などのさまざまな物体が乱雑に存在していると考えられる。本資料における「カテゴリ」とは、上述したような物体の種類のことを意味する。

注２）畳み込み自己符号化器：ニューラルネットワークによる次元圧縮のアルゴリズムの一種。入力層と出力層へ与えるデータは同じものとし、それらの中間には、入力・出力データよりも少ない次元の層を設定する。そして、出力データが入力データと同じになるように、畳み込みネットワークの重みを調整する。もっとも次元の少ない層を瓶首層（ボトルネックレイヤ）と呼ぶ。