草庐IT

CVPR 2023 | GPT-4与文心一言同台竞技,居然是为了自动驾驶UniAD工作!

一点人工一点智能 2023-03-28 原文
以下文章来源于OpenDriveLab ,作者OpenDriveLa

00  前言

都说 ChatGPT 是自然语言处理中技术大魔王,国内百度的文心一言是国内技术一霸,那自动驾驶中的技术魔王,你听过说吗?另外,ChatGPT 和文心一言都好评的自动驾驶端到端模型,大家不好奇吗?

图源:文心一言;关键词:技术大魔王

ChatGPT 的横空出世解决了自然语言中绝大多数的任务:包括语言生成、文本分类、机器翻译、文本摘要和对话生成。ChatGPT 对自然语言处理任务表现出强大的“统治能力”,已经一统语言处理的江湖。国内百度的文心一言也统筹解决了聚集中文环境中的自然语言处理的任务。看着这些自然语言处理的技术大魔王,再看看OpenDriveLab自己的研究领域——自动驾驶。不禁发问:一个大的任务只需要一个模型就足够了吗?会存在自动驾驶领域的大魔王吗?

自动驾驶是一项高度复杂的技术,需要多个学科领域的知识和技能,包括传感器技术、机器学习、路径规划等方面。自动驾驶还需要适应不同的道路规则和交通文化,与其他车辆和行人进行良好的交互,以实现高度可靠和安全的自动驾驶系统。面对这种复杂的场景,大部分自动驾驶相关的工作都聚焦在具体的某个模块,关于框架性的研讨则相对匮乏。

自动驾驶是个相对困难的任务,但是上海人工智能实验室 OpenDriveLab 自动驾驶团队迎难而上,勇攀高峰的精神让我们团队的精神小伙们探索出自动驾驶中魔王级别的算法框架——Unified Autonomous Driving(UniAD)!

从任务看,UniAD 首次将检测,跟踪,建图,轨迹预测,占据栅格预测以及规划整合到一个基于 Transformer 的端到端网络框架下。从性能看,UniAD 在 nuScenes 数据集下的所有相关任务都达到 SOTA 性能,尤其是预测和规划效果远超其他模型。目前论文已被 CVPR 2023 接收。UniAD 完美契合了大魔王“多任务”和“高性能”的特点,可称为自动驾驶中的技术大魔王。同时 UniAD 也获得了 ChatGPT 和文心一言的认可,可谓是通过了技术魔王的“同行评议”:

ChatGPT 版本:

我们把论文中的文字部分输入给ChatGPT,让他来理解 UniAD。文中其他的回答也都基于在模型理解完论文之后给出的答复。

文心一言版本:

同样,我们把论文的文字部分输入到文心一言中,让他来理解 UniAD。文中其他的回答也都基于在模型理解完论文之后给出的答复。

想知道的更多 UniAD 的细节,下面的两个链接会给你答案。

1. 项目地址:https://github.com/OpenDriveLab/UniAD

2. 论文地址:https://arxiv.org/abs/2212.10156

01  魔王诞生

有关 UniAD 的诞生,要不先听听技术大佬们:青年研究员陈立、ChatGPT 和文心一言怎么说?

UniAD为什么会诞生?

可以先听听我们团队青年才俊、自动驾驶研究员陈立的看法:

ChatGPT 是这样认为的

文心一言也分析得头头是道:

通过我们的青年研究员和两个技术大魔王的分析,相信大家肯定有所了解。接下来给大家详细阐述为什么 UniAD 会诞生,这必然会回到一个问题:“为什么之前的模型没有同时做到这么多的任务呢?”或许还要从自动驾驶的框架开始分析:

自动驾驶UniAD框架对比 (a)传统模块化(b)多任务模块(c)端到端自动驾驶模块

如上图所示,现有自动驾驶系统可大致归为三类:

a. 传统模块化

每个模型负责单独的子任务,优势在于易于调试迭代,但是解耦就会丢失最优性,各个模块的优化目标并不是以驾驶为最终目标,并且每个模块的误差会传递到之后的模块。

b. 多任务模块

多任务范式利用一个共享的特征提取器来完成多个子任务,好处是节省计算成本,缺点在于不同任务之间可能会存在负面影响。

c. 端到端模块

端到端(End-to-end, E2E)范式以最终的驾驶性能为目标,具体又可以细分为两种范式:隐式的端到端和显式的端到端。其中隐式端到端是以传感器数据作为输入,直接输出规划或者控制指令。这种范式的好处是较为简洁,缺点是缺乏可解释性,难以调式及迭代。显式端到端则是将多个模块囊括在端到端模型之中,每个模块有各自的输出,并且会将提取到的特征传递到下游任务。

我们对目前显式端到端自动驾驶工作进行了比较:

端到端自动驾驶工作对比

可以发现,大多数工作都关注了感知、决策和规划三部分,但具体任务存在差异,且没有框架融合所有的任务。那为什么会出现这种情况呢?一方面受限于对自动驾驶的认识,研究者们没有对任务之间的关联和构建方式研究清楚;另一方面受限于模型的最终效果,或许有人曾经尝试过把全部任务融合,但是效果不佳。

为了探讨这一问题,UniAD 首次将所有检测,跟踪,建图,轨迹预测,占据栅格预测与规划都包含进来,从实现方面解决了这一难点。另一方面,通过严格的消融实验发现,在正确的融合方式下,所有的任务对最终的驾驶性能都是有收益的。至此,自动驾驶方面的技术魔王为了解决实际问题而来。

02  魔王登基

那为什么我们的模型可以解决不同任务的融合难的问题,从而实现多任务和高性能呢?让我们开始揭晓自动驾驶技术大魔王的真身:

整体而言,UniAD 利用多组 query 实现了全栈 Transformer 的端到端模型。如图所示,UniAD 由 2 个感知模块,2 个预测模块以及一个规划模块组成。其中感知和预测模块是通过 transformer 架构进行预测,每个模块输出的特征会传递到之后的模块来辅助下游任务。

UniAD整体框架图

秘密武器1:多组 query 的全 Transformer 模型

UniAD 利用多组 query 实现了全栈 Transformer 的端到端模型,我们可以从具体 Transformer 的输入输出感受到信息融合。在 TrackFormer 中,Track query 通过与 BEV 特征通过 attention 的方式进行交互,对特征进行输出。类似的,Map query 经过 MapFormer 的更新后,得到相应的特征。MotionFormer 使用 Motion query 与 BEV 特征进行交互,得到未来轨迹。

OccFormer 以密集的 BEV 特征和稀疏的特征对应的位置信息来构建实例级别的占据栅格。

秘密武器2:基于最终“规划”为目标

在 TrackFormer 中,Track query 中包含一个特定的 ego-vehicle  query 用来表示自车属性。规划模块 (Planner) 将 MotionFormer 更新后的 ego-vehicle  query 与 BEV 特征进行交互,此时 ego-vehicle query 包含对整个环境的感知与预测信息,因此能更好的学习 planning 任务。为了减少碰撞,我们还利用占据栅格预测模块 OccFormer 的输出对自车路径进行优化,避免行驶到未来可能有物体占用的区域。在这个过程中,全部的模块通过输出特定的特征来帮助实现最终的目标“规划”。

03  魔王雄风

UniAD 在 nuScenes 数据集中的所有任务都达到了 SOTA,尤其是预测和规划部分,具体的定量指标我们不多赘述。下面给出 UniAD 在不同场景的可视化结果。在技术大魔王的框架之下,如果我们能有机会坐在实车中,一定会享受整个驾驶过程。ChatGPT 和文心一言也抱有相同的看法呢:

ChatGPT 版本:

文心一言版本:

1)晴天直行

UniAD 可以感知左前方等待的黑色车辆,预测其未来轨迹(即将左转驶入自车的车道),并立即减速以进行避让,待黑色驶离后再恢复正常速度直行。

2)晴天转弯

得益于UniAD的地图分割模块,其可以沿着分割得到的道路结构适时地转弯。

3)雨天直行

在视野干扰较大的雨天环境中,UniAD 也能感知到周围车辆进行正常行驶。

4)雨天转弯

在视野干扰较大且场景复杂的十字路口,UniAD 能通过分割模块生成十字路口的整体道路结构(如右侧 BEV 图中的绿色分割结果所示),并完成大幅度的左转。

5)夜晚直行

在夜晚视野变暗的情况下,UniAD 仍然能感知到前方以及右侧的车辆(双车道场景),确保自车行驶。

6)夜晚转弯

在夜晚视野变暗的情况下,UniAD 能感知到前车并完成先静止,后左转的规划。

04  未来展望

图源:文心一言;关键词:自动驾驶

UniAD 的发展还在如火如荼的进行,那他的未来会是什么样呢?让我们一起来听听ChatGPT 和文心一言怎么说,毕竟同行最了解同样,技术魔王最懂技术魔王呀!

ChatGPT 版本

文心一言版本

总的来说,UniAD 作为一项极具创新性的自动驾驶技术,具有很大的潜力和应用价值。尽管该技术目前仍处于发展初期,但其已经引起了人们的广泛兴趣和关注,未来的发展前景非常值得期待。

有关CVPR 2023 | GPT-4与文心一言同台竞技,居然是为了自动驾驶UniAD工作!的更多相关文章

  1. 华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2

    华为OD机试题本篇题目:明明的随机数题目输入描述输出描述:示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od,od薪资待遇,od机试题清单华为OD机试真题大全,用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o

  2. 华为OD机试真题 C++ 实现【带传送阵的矩阵游离】【2023 Q2 | 200分】 - 2

            所有题目均有五种语言实现。C实现目录、C++实现目录、Python实现目录、Java实现目录、JavaScript实现目录题目n行m列的矩阵,每个位置上有一个元素你可以上下左右行走,代价是前后两个位置元素值差的绝对值.另外,你最多可以使用一次传送阵(只能从一个数跳到另外一个相同的数)求从走上角走到右下角最少需要多少时间。输入描述:第一行两个整数n,m,分别代表矩阵的行和列。后面n行,每行m个整数,分别代表矩阵中的元素。输出描述:一个整数,表示最少需要多少时间。

  3. IDEA 2023.1 正式发布,新特性简介 - 2

     昨晚看到IDEA官推宣布IntelliJIDEA2023.1正式发布了。简单看了一下,发现这次的新版本包含了许多改进,进一步优化了用户体验,提高了便捷性。至于是否升级最新版本完全是个人意愿,如果觉得新版本没有让自己感兴趣的改进,完全就不用升级,影响不大。软件的版本迭代非常正常,正确看待即可,不持续改进就会慢慢被淘汰!根据官方介绍:IntelliJIDEA2023.1针对新的用户界面进行了大量重构,这些改进都是基于收到的宝贵反馈而实现的。官方还实施了性能增强措施,使得Maven导入更快,并且在打开项目时IDE功能更早地可用。由于后台提交检查,新版本提供了简化的提交流程。IntelliJIDEA

  4. 2023爱分析·流程中台市场厂商评估报告:微宏科技 - 2

     目录1. 研究范围定义2. 流程中台市场分析3. 厂商评估:微宏科技4. 入选证书 1.   研究范围定义近年来,随着外部市场环境快速变化、客户需求愈发多样,企业逐渐意识到,自身业务需要更加敏捷、高效,具备根据市场需求快速迭代的能力。业务流程的自动化能够帮助企业实现业务的敏捷高效,因此受到越来越多企业的关注。企业的“自动化武器库”品类丰富,包括低/零代码平台、RPA、BPM、AI等。企业可以使用多项自动化工具,但结果往往是各项自动化工具处于各自的“自动化烟囱”之中,仅能实现碎片式自动化。例如,某企业的IT团队可能在使用低代码平台、财务团队可能在使用RPA、呼叫中心则可能在使用聊天机器人。自动

  5. 连续3天3场分享,KubeVela@KubeCon EU 2023 抢鲜看! - 2

    自从2019年OpenApplicationModel诞生以来,KubeVela已经经历了几十个版本的变化,并向现代应用程序交付先进功能的方向不断发展。最近,KubeVela完成了向CNCF孵化项目的晋升,标志着社区的发展来到一个新的里程碑。今天,KubeVela社区内活跃着大量来自全球的开发者,共同推动KubeVela项目的落地和发展。在即将开幕的KubeCon+CloudNatvieConEurope2023上,我们惊喜地发现,连续3天,KubeVela项目的贡献者、企业用户和来自阿里云的核心维护者,将从不同角度展对KubeVela项目的分享。让我们先睹为快!🎙️BuildingaPlat

  6. 华为OD机试 -旋转骰子(Python) | 机试题算法思路 【2023】 - 2

    最近更新的博客华为OD机试-卡片组成的最大数字(Python)|机试题算法思路华为OD机试-网上商城优惠活动(一)(Python)|机试题算法思路华为OD机试-统计匹配的二元组个数(Python)|机试题算法思路华为OD机试-找到它(Python)|机试题算法思路华为OD机试-九宫格按键输入(Python)|机试算法备考思路华为OD机试-身高排序(Python)|备考思路使用说明参加华为od机试,一定要注意不要完全背诵代码,需要理解之后模仿写出,通过率才会高。华为OD清单查看地址:blog.csdn.net/hihell/catego

  7. 2023年6月DAMA-CDGP数据治理专家认证请尽快报名啦! - 2

    目前6月DAMA-CDGP数据治理认证考试开放报名地区有:北京、上海、广州、深圳、长沙、呼和浩特。目前南京、济南、西安、杭州等地区还在接近开考人数中,打算参加6月考试的朋友们可以抓紧时间报名啦!!!5月初,DAMA-CDGA/CDGP数据治理认证考前班也即将开班啦!报名从速!!!DAMA认证为数据管理专业人士提供职业目标晋升规划,彰显了职业发展里程碑及发展阶梯定义,帮助数据管理从业人士获得企业数字化转型战略下的必备职业能力,促进开展工作实践应用及实际问题解决,形成企业所需的新数字经济下的核心职业竞争能力。DAMA是数据管理方面的认证,帮助数据从业者提升数据管理能力。CDGP数据治理专家认证属于

  8. 评测:对接GPT-4的NewBing使用体验变化 - 2

    GPT-4是OpenAI发布的最新一代语言模型,于2023年3月14日正式发布,并通过API和ChatGPTPlus平台向用户开放。微软也证实,在GPT-4正式发布之前,就已经在部分版本的Bing中使用GPT-4技术。本文旨在对使用GPT-4技术的NewBing进行中立、专业的使用评测,探讨其使用体验的变化。界面与限额早于2月26日小编获得Newbing试用资格,届时Newbing初体验并不理想,限制多,例如对话只能持续5条自动终止,对话字符受限,生成效果不尽如人意。然而今日对接GPT-4全新bing额度扩充至15条,且对话字数扩容至2000字。Newbing提供了三种模式选项,即创造力、平衡

  9. 华为OD机试模拟题 用 C++ 实现 - 删除指定目录(2023.Q1) - 2

    最近更新的博客【华为OD机试模拟题】用C++实现-最多获得的短信条数(2023.Q1))文章目录最近更新的博客使用说明删除指定目录题目输入输出示例一输入输出说明Code使用说明参加华为od机试,一定要注意不要完全背诵代码,需要理解之后模仿写出,通过率才会高。华为OD清单查看地址:https://blog.csdn.net/hihell/catego

  10. Internet Download Manager2023最好用的HTTP下载神器 - 2

    InternetDownloadManager介绍2023最佳下载利器。InternetDownloadManager(简称IDM)是一款Windows平台功能强大的多线程下载工具,国外非常受欢迎。支持断点续传,支持嗅探视频音频,接管所有浏览器,具有站点抓取、批量下载队列、计划任务下载,自动识别文件名、静默下载、网盘下载支持等功能。一款下载器软件,也可以叫它网页嗅探下载工具可以理解为和迅雷差不多,但是没有迅雷那么多广告,而且功能也更加强大(ps:我也是不久前知道迅雷可以下载网页的视频了)。这是一款互联网下载管理器,看着名字挺长的,但它还有一个简称,你一定知道:IDM,在很多论坛技术贴中被称为H

随机推荐