CVPR_草庐IT

【低照度图像增强系列（4）】SCI算法详解与代码实现（CVPR 2022|大连理工）

前言 ☀️在低照度场景下进行目标检测任务，常存在图像RGB特征信息少、提取特征困难、目标识别和定位精度低等问题，给检测带来一定的难度。 🌻使用图像增强模块对原始图像进行画质提升，恢复各类图像信息，再使用目标检测网络对增强图像进行特定目标检测，有效提高检测的精确度。 ⭐本专栏会介绍传统方法、Retinex、EnlightenGAN、SCI、Zero-DCE、IceNet、RRDNet、URetinex-Net等低照度图像增强算法。👑完整代码已打包上传至资源→低照度图像增强代码汇总目录前言 🚀一、SCI介绍 ☀️1.1SCI简介 ☀️1.2SCI网络结构（1）权重共享的照明学习（2）自校

CVPR 2024 满分论文 | Deformable 3D Gaussian：基于可变形3D高斯的高质量单目动态重建新方法

项目主页：https://ingra14m.github.io/Deformable-Gaussians/论文链接：https://arxiv.org/abs/2309.13101代码：https://github.com/ingra14m/Deformable-3D-Gaussians单目动态场景（MonocularDynamicScene）是指使用单眼摄像头观察并分析的动态环境，其中场景中的物体可以自由移动。单目动态场景重建对于理解环境中的动态变化、预测物体运动轨迹以及动态数字资产生成等任务至关重要。随着以神经辐射场（NeuralRadianceField,NeRF）为代表的神经渲染的兴起

北大具身智能成果入选CVPR'24：只需一张图一个指令，就能让大模型玩转机械臂

只靠一张物体图片，大语言模型就能控制机械臂完成各种日常物体操作吗？北大最新具身大模型研究成果ManipLLM将这一愿景变成了现实：在提示词的引导下，大语言模型在物体图像上直接预测机械臂的操作点和方向。进而，得以操控机械臂直接玩转各项具体的任务：例如打开抽屉、冰箱，揭锅盖、掀马桶盖……作者表示：该方法利用LLM的推理和面对开放世界的泛化能力，成功提升了模型在物体操纵方面的泛化能力。在仿真和真实世界中，ManipLLM在各种类别的物体上均取得了令人满意的效果，证明了其在多样化类别物体中的可靠性和适用性。与谷歌RT2等输出机器人本体动作的策略相比(如下图所示)，该方法侧重于以物体为中心（Object

CVPR'24发榜，华人博士生连中三篇凡尔赛！官方下场发梗图玩坏网友

千呼万唤，就在今天，CVPR2024的接收结果终于出来了。官方已邮件发送通知，已经有不少人晒出好消息：当然，目前刚刚公布的是初步结果，具体中标的是oral还是highlight还要再等等。以及详细统计数据也还没出。但无论是中了还是“缘分未到”，大伙悬着的心终于落下了～现场一览从已经公布喜讯的网友发布的内容来看，今年中标的内容有扩散模型相关的：比如一种全新扩散驱动算法，用于从多模态输入（图像和文本）输出音频，来自谷歌学生研究员。也有机器人相关：比如将模仿学习和sim2real结合，让机器人跟着人类学一遍就会，来自UCSD硕士生。有研究多模态基础模型低级视觉能力提高的：也有全新3D人体姿势估计算法

YOLOv7升级：引入CVPR2023最新技术Pconv，提升计算机视觉性能

计算机视觉领域一直在不断发展和创新，为了提高目标检测算法的性能，我们可以结合最新的CVPR2023会议中提出的Pconv技术来改进YOLOv7算法。Pconv是一种有效的卷积神经网络架构，能够在目标检测任务中取得显著的性能提升。本文将详细介绍如何将Pconv应用于YOLOv7算法，并提供相应的源代码。首先，我们需要了解YOLOv7和Pconv的基本原理。YOLOv7是一种流行的目标检测算法，它通过将整个图像划分成网格单元，并将每个单元与预定义的锚点相匹配来预测目标的位置和类别。Pconv是一种基于部分卷积的网络架构，它通过在卷积过程中遮盖掉目标外的区域，从而提高目标检测的准确性。接下来，我们将

[CVPR2023 | GrowSP：无监督3D点云语义分割]

文章目录概要引言相关工作方法小结概要论文链接：https://arxiv.org/abs/2305.16404代码链接：https://github.com/vLAR-group/GrowSP本文的研究主要关注点云的三维语义分割问题。与目前主要依赖于人工注释数据训练神经网络的方法不同，本文提出了一种全新的无监督方法，名为GrowSP。该方法能够成功地识别3D场景中每个点的复杂语义类别，而无需任何标签或预训练模型。该方法的核心思想是通过逐步增加超点的方式发现三维语义元素。本文的方法由三个主要部分组成：1）特征提取器：从输入的点云数据中学习逐点的特征。2）超点构造器：逐步增加超点的大小。3）语义基

(CVPR 2018) 3D Semantic Segmentation with Submanifold Sparse Convolutional Networks

Abstract卷积网络是分析图像、视频和3D形状等时空数据的事实标准。虽然其中一些数据自然密集（例如照片），但许多其他数据源本质上是稀疏的。示例包括使用LiDAR扫描仪或RGB-D相机获得的3D点云。当应用于此类稀疏数据时，卷积网络的标准“密集”实现非常低效。我们引入了新的稀疏卷积运算，旨在更有效地处理空间稀疏数据，并使用它们来开发空间稀疏卷积网络。我们展示了生成的模型（称为子流形稀疏卷积网络（SSCN））在涉及3D点云语义分割的两项任务上的强大性能。特别是，我们的模型在最近的语义分割竞赛的测试集上优于所有先前的最新技术。1.Introduction卷积网络(ConvNets)构成了用于各种

【论文阅读】(CVPR 2023 Highlight)Devil is in the Queries: Advancing Mask Transformers for Real-world ...

论文地址：https://arxiv.org/abs/2304.00212代码：未开源记录一下吸引我的地方，我感觉他会提问题。OOD（OutofDistribution）问题，OOD(Out-of-Distribution)问题指的是模型在处理与训练数据分布不同的数据时的性能下降。在机器学习中，模型通常在特定分布上进行训练，但在实际应用中，可能会遇到与训练数据分布不同的数据。这种情况下，模型可能无法准确地进行泛化，导致性能下降，甚至出现错误的预测。包含两类a.语义偏移semanticshiftb.协方差偏移covariate。针对的问题：OOD问题。长尾问题（数据在不同类别上数量差距过大，比如

CVPR 2023 ，只需简单的几步，2D视频变3D？最新视频创作AI模型！

作者：PCIPG-Zhb|来源：计算机视觉工坊在公众号「3D视觉工坊」后台，回复「原论文」即可获取论文pdf和代码。添加微信：dddvisiona，备注：三维重建，拉你入群。文末附行业细分群。文中解决了从描述复杂动态场景的单目视频中合成新视图的问题。作者提出了一种新方法，该方法不是在MLP的权重内对整个动态场景进行编码，而是该方法通过采用基于体积图像的渲染框架，该框架通过以场景运动感知的方式聚合来自附近视图的特征来合成新的视点，从而解决了这些限制。此系统保留了先前方法（DynamicnNeRFs）在对复杂场景和视图相关效果进行建模的能力方面的优势，但也能够从具有无约束相机轨迹的复杂场景动态的长

字节跳动CVPR 2023论文精选来啦（内含一批图像生成新研究）

计算机视觉领域三大顶会之一的CVPR今年已经开奖啦。今年的CVPR将于六月在加拿大温哥华举办，和往年一样，字节跳动技术团队的同学们收获了不少中选论文，覆盖文本生成图像、语义分割、目标检测、自监督学习等多个领域，其中不少成果在所属领域达到了SOTA（当前最高水平）。一起来看看这些成果吧~一个简洁的文本监督语义分割框架ASimpleFrameworkforText-SupervisedSemanticSegmentation这项工作由字节跳动商业化技术团队与上海交通大学、早稻田大学合作完成。文本监督语义分割是一个新颖的研究课题，它可以通过图像-文本对比学习的方式获得语义分割结果。然而，该领域之前的