本文经自动驾驶之心公众号授权转载,转载请联系出处。写在前面&笔者的个人理解在目前自动驾驶领域,传统的感知(perception)-预测(prediction)-规划(planning)的常规端到端自动驾驶在处理常规场景时表现尚可,但在面对复杂场景或者长尾场景时会遇到较大的挑战。论文作者认为主要是因为目前常规模块的设计缺乏“场景理解”能力所导致的,比如感知模块常常只是检测识别常见物体,忽略了长尾物体和物体特性的识别。鉴于近期大视觉语言模型(LVLMs)在视觉理解和推理展现出的强大能力,作者将VLM应用在自动驾驶领域,并设计了一套特殊的CoT推理过程,同时提出了一种与传统自动驾驶系统相结合的方法,