DriveVLM_草庐IT

直接干上车！DriveVLM：首个Orin部署的快慢双系统智驾大模型

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解在目前自动驾驶领域，传统的感知（perception）-预测（prediction）-规划（planning）的常规端到端自动驾驶在处理常规场景时表现尚可，但在面对复杂场景或者长尾场景时会遇到较大的挑战。论文作者认为主要是因为目前常规模块的设计缺乏“场景理解”能力所导致的，比如感知模块常常只是检测识别常见物体，忽略了长尾物体和物体特性的识别。鉴于近期大视觉语言模型（LVLMs）在视觉理解和推理展现出的强大能力，作者将VLM应用在自动驾驶领域，并设计了一套特殊的CoT推理过程，同时提出了一种与传统自动驾驶系统相结合的方法，

清华叉院、理想提出DriveVLM，视觉大语言模型提升自动驾驶能力

与生成式AI相比，自动驾驶也是近期AI最活跃的研究和开发领域之一。要想构建完全的自动驾驶系统，人们面临的主要挑战是AI的场景理解，这会涉及到复杂、不可预测的场景，例如恶劣天气、复杂的道路布局和不可预见的人类行为。现有的自动驾驶系统通常包括3D感知、运动预测和规划组成部分。具体来说，3D感知仅限于检测和跟踪熟悉的物体，忽略了罕见物体及其属性，运动预测和规划则关注物体的轨迹动作，通常会忽略物体和车辆之间的决策级交互。自动驾驶需要从数据驱动迭代到知识驱动，通过训练具备逻辑推理能力的大模型才能真正解决长尾问题，只有这样才能迈向开放世界的L4级能力。随着GPT4、Sora等大模型通过涌现、规模效应展现出