草庐IT

DriveVLM

全部标签

直接干上车!DriveVLM:首个Orin部署的快慢双系统智驾大模型

本文经自动驾驶之心公众号授权转载,转载请联系出处。写在前面&笔者的个人理解在目前自动驾驶领域,传统的感知(perception)-预测(prediction)-规划(planning)的常规端到端自动驾驶在处理常规场景时表现尚可,但在面对复杂场景或者长尾场景时会遇到较大的挑战。论文作者认为主要是因为目前常规模块的设计缺乏“场景理解”能力所导致的,比如感知模块常常只是检测识别常见物体,忽略了长尾物体和物体特性的识别。鉴于近期大视觉语言模型(LVLMs)在视觉理解和推理展现出的强大能力,作者将VLM应用在自动驾驶领域,并设计了一套特殊的CoT推理过程,同时提出了一种与传统自动驾驶系统相结合的方法,

清华叉院、理想提出DriveVLM,视觉大语言模型提升自动驾驶能力

与生成式AI相比,自动驾驶也是近期AI最活跃的研究和开发领域之一。要想构建完全的自动驾驶系统,人们面临的主要挑战是AI的场景理解,这会涉及到复杂、不可预测的场景,例如恶劣天气、复杂的道路布局和不可预见的人类行为。现有的自动驾驶系统通常包括3D感知、运动预测和规划组成部分。具体来说,3D感知仅限于检测和跟踪熟悉的物体,忽略了罕见物体及其属性,运动预测和规划则关注物体的轨迹动作,通常会忽略物体和车辆之间的决策级交互。自动驾驶需要从数据驱动迭代到知识驱动,通过训练具备逻辑推理能力的大模型才能真正解决长尾问题,只有这样才能迈向开放世界的L4级能力。随着GPT4、Sora等大模型通过涌现、规模效应展现出