近年、IoT技術の進展と共に、収集したデータを現場(エッジ)で即座に処理・分析するエッジAIの重要性が高まっている。
しかし、これらのエッジアプリケーションでは、搭載デバイスの消費電力や計算能力に厳しい制約がある。
一方で、広範囲を高精度に監視・分析するためには4Kなどの高精細カメラの活用が求められるが、従来の一般的なエッジ向けAIデバイスでは、高精細映像をそのまま処理することは困難であった。
多くのAI推論モデルは、計算負荷や学習の容易性から入力画像サイズに制限があり、例えば、物体検出をするAIモデル「YOLOv3」の最大サイズは608×608ピクセル程度だ。
そのため、4K(3840×2160)カメラで撮影した映像も、AI処理を行う際には大幅に縮小する必要があり、結果として映像内の小さな物体が潰れて検出できないという課題があった。
こうした中、日本電信電話株式会社(以下、NTT)は、4K等の超高精細映像に対するリアルタイムAI推論処理を、電力制約の厳しいエッジデバイス上で実現するAI推論LSIを開発したと発表した。
このLSIは、AI推論における解像度の制約を拡張し、リアルタイム性と低消費電力を両立させることで、これまで困難だった高度な映像AIアプリケーションのエッジ実装を可能にするものだ。
4K解像度の映像を、リアルタイム性の指標となる30fps(フレーム/秒)でAI推論処理(物体検出など)することが可能なほか、この高性能処理を一般的なエッジ向けAIデバイス(例:608×608ピクセルでYOLOv3を処理)と同等以下の20W以下の低消費電力で実現している。
高精度な物体検出を実現するためには、独自の「AI推論高精細化技術」を搭載している。
これは、入力画像をタイル状に分割して個別に推論処理を行うことで微小物体を検出可能にし、同時に全体を縮小した画像でも推論を行うことで、大きな物体も捉える技術だ。(下図(a)参照)。
これらの結果を統合することで、4K映像内の大小様々な物体を高精度に検出する。
さらに、高精細化技術に伴う計算量の増大を抑えるため、NTT独自のAI推論エンジンが採用されている。このエンジンでは、映像フレーム間の相関性を利用した演算効率化などにより、検出精度を維持しつつ計算量を削減し、低電力での4Kリアルタイム処理を可能にしている。(下図(b)参照)。

このLSIの活用により、ドローン分野では、目視外飛行時の安全航行支援能力が向上し、従来は30m程度であったところ、最大150mの高度からでも飛行経路下の人物や障害物をAIでリアルタイムに検出することができるという。
また、一台の高精細カメラでより広い範囲をカバーし、詳細な人流・交通分析や異常検知が可能になる。

その他にも、ロボット制御への活用や、放送・監視分野における高精度な自動被写体追跡など、幅広い応用が考えられる。
今後は、NTTグループのNTTイノベーティブデバイス株式会社にて、2025年度内の製品化が予定されている。
また、NTT研究所では、対応するAI推論モデルの拡充や、さらなるユースケース開拓に向けた技術開発を継続していく方針だ。
なお、今回の開発成果は、米国サンフランシスコで2025年4月9日~10日に開催された「Upgrade2025」にて展示されたとのことだ。
無料メルマガ会員に登録しませんか?

IoTに関する様々な情報を取材し、皆様にお届けいたします。