文章目录
论文:
PointAugmenting: Cross-Modal Augmentation for 3D Object Detection
先提出背景,然后方法,难点/挑战(不过这篇没在摘要里面提出挑战,应该会放到引言里面提)
背景 :摄像头和激光雷达是自动驾驶环境中用于 3D 对象检测的两个互补传感器。相机提供丰富的纹理和颜色提示,而激光雷达则专注于相对距离感应。 3D 物体检测的挑战在于有效地将 2D 相机图像与 3D LiDAR 点融合。
方法:提出了一种新的跨模态 3D 对象检测算法,名为PointAugmenting。
简述方法(概括方法)
介绍3D物体检测和激光雷达背景和挑
介绍现有方法和缺点
现有方法:三种跨模态分类:result-level fusion、proposal-level fusion和point-level fusion。
缺点:
(反转)相反,MVX-Net [16]、EPNet [7] 和 PointPainting [19] 直接利用逐点对应来使用 CNN 特征或图像分割的分割分数来增强每个 LiDAR 点。
在分割分数的帮助下,PointPainting 已成为一种流行的融合基线,在大规模数据集上比仅使用 LiDAR 的检测器获得了巨大的收益。
**通过实验探索更有效的改进方式(前面夸了Point Painting很好,但是还有不足,因为还存在挑战、可改进的地方)**图像的高维CNN特征比分割分数有更丰富的的外观线索和更大的感受野。
改进: 对发现的高维CNN特点进行改进,把VGG16换成了CenterNet的DLA34层作为输出,是为了强调细粒度的细节以加强点云之间的区别。
**再改进:**改善LiDAR和相机之间的模态差距,采用跨模态的后期融合机制。(并展现了融合后的效果)
(训练中存在的瓶颈):跨模态的数据增强
贡献总结
针对类型概括相关工作特点和其缺点
LIDAR-Based 3D Detection
Fusion-Based 3D Detection:在我们的工作中,我们探索了一种更好的图像表示和融合机制,以促进逐点跨模态数据融合。
数据增强: 受 Cutmix 的启发,我们跨模态 3D 增强的意图是同时将对象点和图像块粘贴到场景中,同时保持传感器之间的一致性。
先用第一段介绍该论文的方法大致结构,然后开始分点详细介绍方法。
最近检测器 PointPainting [19] 的成功启发我们用相机图像的语义来装饰 LiDAR 点。(这里还是大胆的表明了,是引用的别人的方法,并不是自己创新)最后使用了2D对象检测而不是语义分割训练的现成网络
提出了为什么才用这个方法的三个原因:
然后再总结自己方法的使用方式。
这里就开始简述该论文的3D检测方法了
这里的数据增强也是运用的别人的方法
主要挑战:在于保持相机和激光雷达数据之间的一致性。
解决方式:我们确定了前景物体之间的遮挡关系,并从观察者的角度过滤了那些被遮挡的 LiDAR 点。对于相机图像,我们取出虚拟对象和原始对象,并按远近顺序附加它们的补丁。
再详细介绍方法
本篇论文也只总共在两个数据集上进行了实验
因为本文的数据增强也是一大特点,所以也对数据增强的不同方法进行了ablation studies
还通过可显示化证明结果的可靠性和进行分析
比较检测速度 (这里的话,感觉没有什么可取的,因为我那个不是很参考检测速度)
在本文中,我们提出了一种新颖的跨模态 3D 对象检测器,名为 PointAugmenting。通过提出的跨模态数据融合和数据增强方案,PointAugmenting 在 nuScenes 检测排行榜上设置了新的最先进的结果。作为跨模态 3D 检测器的强大基线,我们的 PointAugmenting 在未来的工作中可以在两个方面进行改进。首先,尽管我们的后期融合机制有效,但更有效的跨模态融合方案是可取的。此外,考虑到 Waymo 数据集中 LiDAR 和摄像头之间的不同视场,实际应用需要一个适应不同模态(仅 LiDAR 或跨模态)的单一模型。