Helm.aiは、運転動画を生成する生成AIモデル「VidGen-2」を発表した。
「VidGen-2」は、前作の「VidGen-1」と比べて解像度が2倍、1秒あたり30フレーム記録する30fpsに向上したほか、カメラごとの解像度が2倍に増加したマルチカメラサポートを提供する。
マルチカメラビューでは、各カメラで640×384(VGA)解像度の映像を3つのカメラから生成する。モデルはすべてのカメラ視点間で自己整合性を保証し、さまざまなセンサ構成に対応したシミュレーションを提供する。
また、NVIDIA H100 Tensor Core GPUを使用して、数千時間の多様な運転映像をトレーニングデータとして学習しており、Helm.aiのディープニューラルネットワーク(DNN)アーキテクチャと、Deep Teachingという教師なし学習手法を活用している。
これにより、複数の地理、カメラタイプ、車両視点にわたって運転シーンの動画を生成する。また、人間のような運転行動も学習・再現し、エゴ車両(自動運転車両)や周囲のエージェントの動きを交通ルールに従ってシミュレートする。
なお、ビデオの生成は、入力プロンプトなしでも可能なほか、単一の画像や入力ビデオをプロンプトとしてもビデオを生成することができる。
Helm.aiのCEO兼創業者であるVladislav Voroninski氏は、「VidGen-2の最新の強化機能は、自動運転技術を開発する自動車メーカの複雑なニーズに応えるように設計されている。VidGen-2の改善は、他の基盤モデルの進歩も支援し、自動運転およびロボティクスオートメーションの将来の開発を加速させるでしょう。」と、述べている。
[「VidGen-2」の紹介動画]無料メルマガ会員に登録しませんか?

IoTに関する様々な情報を取材し、皆様にお届けいたします。