Turing株式会社は、自動運転向けVLAモデルデータセット「CoVLA(コブラ)Dataset」を開発し、一部を公開した。
「CoVLA Dataset」は、車載センサデータを含む80時間以上の運転データで構成された、自動運転向けVLAモデルデータセットだ。
データ処理からキャプション生成まで自動化した手法で構築しており、同データセットを用いて開発したVLAモデル「CoVLA-Agent」は、画像から得た運転環境を自然言語で説明し、適切な経路計画を生成することが可能だ。
「CoVLA Dataset」を活用したマルチモーダル大規模言語モデル (以下、MLLMs)が、さまざまな運転シナリオにおいて、どの程度の能力を発揮するかを検証した結果、同モデルが一貫性のある言語生成と行動出力において優れた性能を示し、視覚・言語・行動データを用いたVLAモデルが自動運転分野において効果的なアプローチであることが確認されたのだという。
また、この成果は、経済産業省およびNEDOの生成AI開発支援「GENIAC」の開発の一環として実施され、上記のほかにも、自動運転マルチモーダルモデルのベースとなる日本語LLM「LIama-3-heron-brain-70B,8B」や、高速なマルチモーダル分散学習ライブラリ「vlm-recipes」、大規模な視覚-言語データセット「Wikipedia-Vision-JA」、「Cauldron-JA」など、複数成果を公開しているとのことだ。
今後は、学術機関向けに「CoVLA Dataset」の全データセットを公開することも視野に、より安全かつ信頼性の高い自動運転システムの実現を目指すとしている。
なお、同データセットの研究論文「CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving」が、コンピュータービジョンの国際会議「WACV 2025(IEEE/CVF Winter Conference on Applications of Computer Vision 2025」において採択されたのだという。
[「CoVLA Dataset」の紹介動画]無料メルマガ会員に登録しませんか?
IoTに関する様々な情報を取材し、皆様にお届けいたします。