草庐IT

【论文阅读】Long-Tailed Recognition via Weight Balancing(CVPR2022)附MaxNorm的代码

目录论文使用方法weightdecayMaxNorm如果使用原来的代码报错的可以看下面这个论文问题:真实世界中普遍存在长尾识别问题,朴素训练产生的模型在更高准确率方面偏向于普通类,导致稀有的类别准确率偏低。key:解决LTR的关键是平衡各方面,包括数据分布、训练损失和学习中的梯度。文章主要讨论了三种方法:L2normalization,weightdecay,andMaxNorm本文提出了一个两阶段训练的范式:a.利用调节权重衰减的交叉熵损失学习特征。b.通过调节权重衰减和MaxNorm使用类平衡损失学习分类器。一些有用的看法:研究表明,与联合训练特征学习和分类器学习的模型相比,解耦特征学习和

【CVPR2023】人像卡通化(2D图像->3D卡通)

1.3DAvatarGANBridgingDomainsforPersonalizedEditableAvatarsAffiliation:KAUST(PeterWonka),SnapInc.(Hsin-YingLee,MengleiChai,AliaksandrSiarohin,SergeyTulyakov)Authors:RameenAbdal,Hsin-YingLee,PeihaoZhu,MengleiChai,AliaksandrSiarohin,PeterWonka,SergeyTulyakovKeywords:3D-GAN,personalizedavatars,artisticd

【论文简述】Multi-sensor large-scale dataset for multi-view 3D reconstruction(CVPR 2023)

一、论文简述1.第一作者:OlegVoynov2.发表年份:20233.发表期刊:CVPR4.关键词:三维重建、数据集、多传感器5.探索动机:商品硬件越来越多地提供多传感器数据。使用来自不同传感器的数据,特别是RGB-D数据,有可能大大提高3D重建的质量。例如,多视图立体算法从RGB数据生成高质量的3D几何图形,但可能会错过无特征的表面;用深度传感器数据补充RGB图像可以获得更完整的重建。相反,商品深度传感器往往缺乏RGB相机提供的分辨率。6.工作目标:基于学习的技术极大地简化了组合来自多个传感器的数据的挑战性任务。然而,学习方法需要合适的数据进行训练。本数据集旨在补充现有的数据集,最重要的是

论文阅读——Slide-Transformer(cvpr2023)

Slide-Transformer:HierarchicalVisionTransformerwithLocalSelf-Attention一、分析1、改进transformer的几个思路:(1)将全局感受野控制在较小区域,如:PVT,DAT,使用稀疏全局注意力来从特征图选择稀疏的键对值,并且在所有查询中共享它们。(2)就是SwinTransformer这条窗口注意力范式,输入被分为特殊设计的窗口,特征在窗口中提取并融合。非常有效,但是有一些局限性,一方面,稀疏全局注意力在捕捉局部特征方面往往较差,并且容易受到关键和值位置的影响,在这些位置,其他区域中的信息特征可能会被丢弃。另一方面,窗口注意

CVPR 2023 | 香港理工提出GrowSP:3D场景的无监督语义分割

点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达点击进入—>【目标检测和Transformer】交流群GrowSP:UnsupervisedSemanticSegmentationof3DPointClouds论文链接:https://arxiv.org/abs/2305.16404代码:https://github.com/vLAR-group/GrowSPOverallPipeline:    图1:GrowSP整体流程1.Introduction近年来,三维点云处理在计算机视觉和机器学习领域引起了广泛的关注。然而,现有的点云分割方法通常需要大量标注好的训练数据,这在实

【CVPR2023】具有全局上下文增强的自适应稀疏卷积网络,用于加快无人机图像的目标检测...

论文标题:AdaptiveSparseConvolutionalNetworkswithGlobalContextEnhancementforFasterObjectDetectiononDroneImages代码:https://github.com/Cuogeihong/CEASC导读本文文着眼于解决在无人机平台上进行目标检测所面临的挑战,即需要在有限的计算资源下实现高准确性和低延迟的检测。传统的深度学习方法通常过于复杂,难以适应无人机硬件的资源限制,因此需要一种更高效的方法。本文提出了一种全新的目标检测优化方法——全局上下文增强自适应稀疏卷积(GlobalContextEnhanceme

MobileOne(CVPR 2023)原理与代码解析

paper:MobileOne:AnImprovedOnemillisecondMobileBackboneofficialimplementation:https://github.com/apple/ml-mobileone third-partyimplementation:mmpretrain/mobileone.pyatmain·open-mmlab/mmpretrain·GitHub前言 针对移动设备的高效深度学习架构的设计和部署已经取得了很大进展,很多轻量模型在减少浮点操作(floating-pointoperations,FLOPS)和参数量(parametercount)的同

CVPR2023论文及代码合集来啦~

以下内容由马拉AI整理汇总。 狂肝200小时的良心制作,529篇最新CVPR2023论文及其Code,汇总成册,制作成《CVPR2023论文代码检索目录》,包括以下方向:1、2D目标检测2、视频目标检测3、3D目标检测4、人物交互检测5、显著性目标检测6、车道线检测7、异常检测8、边缘检测9、图像分割10、全景分割11、语义分割12、实例分割13、视频目标分割14、密集预测15、视频处理16、视频编辑17、视频生成/视频合成18、视频超分19、光流/运动估计20、深度估计21、人体姿态估计22、手势估计23、图像复原/图像增强/图像重建24、图像处理25、超分辨率26、图像去噪/去模糊/去雨去

2020CVPR《DD-PPO: LEARNING NEAR-PERFECT POINTGOALNAVIGATORS FROM 2.5 BILLION FRAMES》阅读笔记

我们提出了分布式去中心近端策略优化(DD-PPO,DecentralizedDistributedProximalPolicyOptimization),这是一种在资源密集型模拟环境中进行分布式强化学习的方法。DD-PPO是分布式的(使用多台机器)、去中心化的(没有中央服务器)和同步的(没有任何计算是“过时的”),这使得它在概念上简单且易于实现。在Habitat-Sim中训练虚拟机器人进行的实验中,DD-PPO表现出近线性的扩展性。这种大规模的训练使得智能体在未知环境中通过RGB-D相机和GPS+Compass传感器,在没有地图的情况下,实现几乎完美的自主导航。幸运的是,误差与计算之间呈现出类

[CVPR 2023:3D Gaussian Splatting:实时的神经场渲染]

文章目录前言小结原文地址:https://blog.csdn.net/qq_45752541/article/details/132854115前言mesh和点是最常见的3D场景表示,因为它们是显式的,非常适合于快速的基于GPU/CUDA的栅格化。相比之下,最近的神经辐射场(NeRF)方法建立在连续场景表示的基础上,通常使用体射线行进来优化多层感知器(MLP),以实现捕获场景的新视图合成。类似地,迄今为止最有效的辐射场解决方案建立在连续表示的基础上,通过插值存储的值,例如,体素或哈希[网格或点。虽然这些方法的连续性有助于优化,但渲染所需的随机抽样是昂贵的,并可能导致噪声。我们引入了一种新方法,