ICCV

P2-Net：用于2D像素与3D点匹配的局部特征的联合描述符和检测器(ICCV 2021)

1）论文：P2-Net:Jointdescriptionanddetectionoflocalfeaturesforpixelandpointmatching2）论文地址：https://openaccess.thecvf.com/content/ICCV2021/papers/Wang_P2-Net_Joint_Description_and_Detection_of_Local_Features_for_Pixel_ICCV_2021_paper.pdf3）代码地址：https://github.com/BingCS/P2-Net4）论文来源：ICCV20215）论文作者：BingWang

检测器 P2-Net strong 素和 text-align 定位算法计算机视觉机器学习人工智能

【论文阅读】ICCV 2023 计算和数据高效后门攻击

文章目录一.论文信息二.论文内容1.摘要2.引言3.主要图表4.结论一.论文信息论文题目：ComputationandDataEfficientBackdoorAttacks（计算和数据高效后门攻击）论文来源：2023-ICCV（CCF-A）论文团队：南洋理工大学&清华大学&中关村实验室二.论文内容1.摘要针对深度神经网络(DNN)模型的后门攻击已被广泛研究。针对不同的领域和范式提出了各种攻击技术，如图像、点云、自然语言处理、迁移学习等。在DNN模型中嵌入后门最常用的方法是毒害训练数据。他们通常从良性训练集中随机选择样本进行投毒，而不考虑每个样本对后门有效性的不同贡献，使得攻击不太理想。最近的

后门高效 xff0c xff0 xff 机器学习人工智能网络安全网络攻击模型深度学习

ICCV 2023 | 最全AIGC梳理，5w字30个diffusion扩散模型方向，近百篇论文！

30个方向130篇！CVPR2023最全AIGC论文25个方向！CVPR2022GAN论文汇总 35个方向！ICCV2021最全GAN论文汇总超110篇！CVPR2021最全GAN论文梳理超100篇！CVPR2020最全GAN论文梳理在最新的视觉顶会 ICCV2023 会议中，涌现出大量基于生成式AIGC的CV论文，尤其是扩散模型diffusion为代表！除直接生成，还广泛应用在其它各类low-level、high-level视觉任务！本文集齐和梳理ICCV2023里共30+方向、近百篇的AIGC论文！下述论文均已分类打包好！关注公众号【机器学习与AI生成创作】公众号，在后台回复 AIGC扩

梳理扩散 xff0c xff xff0 AIGC 目标跟踪人工智能计算机视觉机器学习

【多模态融合】CRN 多视角相机与Radar融合实现3D检测、目标跟踪、BEV分割 ICCV2023

前言本文介绍使用雷达与多视角相机融合，实现3D目标检测、3D目标跟踪、道路环境BEV分割，它是来自ICCV2023的。会讲解论文整体思路、输入数据分析、模型框架、设计理念、损失函数等。论文地址：CRN:CameraRadarNetforAccurate,Robust,Efficient3DPerception代码地址：https://github.com/youngskkim/CRN1、模型框架CRN，全称是CameraRadarNet，是一个多视角相机-雷达融合框架。通过融合多视角相机和雷达的特性，生成语义丰富且空间精确的BEV特征图。实现3D物体检测、跟踪和BEV分割任务。CRN的框架图，

融合模态 xff0c xff 雷达多模态融合 CRN 多视角相机 Radar雷达 ICCV2023

【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace，FaceChain团队出品

一、论文本文介绍被计算机视觉顶级国际会议ICCV2023接收的论文"TransFace:CalibratingTransformerTrainingforFaceRecognitionfromaData-CentricPerspective"论文链接：https://arxiv.org/abs/2308.10133开源代码：https://anonymous.4open.science/r/TransFace-294C二、背景1.VisionTransformer(ViT)VisionTransformer(ViT)已经在计算机视觉社区多项视觉任务上展现出其强大的表征能力和拟合能力。相比于卷积

人脸表征 margin-left left text-align 人工智能深度学习 AIGC facechain 人脸表征

点云 3D 天气数据增强 - Fog Simulation on Real LiDAR Point Clouds for 3D Object Detection in ... (ICCV 2021)

FogSimulationonRealLiDARPointCloudsfor3DObjectDetectioninAdverseWeather-恶劣天气下用于3D目标检测的真实LiDAR点云雾模拟（ICCV2021）摘要1.引言2.相关工作2.1不利天气对激光雷达的影响2.2恶劣天气和激光雷达模拟2.33D目标检测3.真实LiDAR点云上的雾模拟3.1激光雷达光学模型的背景3.2激光雷达雾模拟4.结果4.1雾模拟4.2雾中的3D目标检测4.2.1定量结果4.2.2定性结果5.结论References补充材料1.SeeingThroughFog的其他细节2.附加雾模拟结果3.其他定量结果Refe

Simulation Detection span class xff 目标检测 3d 计算机视觉

【论文简述】Learning Depth Estimation for Transparent and Mirror Surfaces（ICCV 2023）

一、论文简述1.第一作者：AlexCostanzino2.发表年份：20233.发表期刊：ICCV4.关键词：深度感知、立体匹配、深度学习、分割、透明物体、镜子5.探索动机：透明或镜面(ToM)制成的材料，从建筑物的玻璃窗到汽车和电器的反射表面。对于利用计算机视觉在未知环境中操作的自主代理来说，这可能是一个艰巨的挑战。在空间人工智能涉及的众多任务中，对于计算机视觉算法和深度网络来说，准确估计这些表面上的深度信息仍然是一个具有挑战性的问题。基于深度学习的深度传感技术，例如单目或立体网络，在提供足够的训练数据的情况下，有可能解决这一挑战。但具有透明对象的数据集很少提供真实深度注释，这些注释是通过非

简述 Transparent xff0c xff0 xff 深度估计立体匹配深度学习分割透明物体镜子

ICCV 2023 视频AIGC（编辑/生成/转换）论文 7 篇

1、Pix2Video:VideoEditingusingImageDiffusion基于大规模图像库训练的图像扩散模型已成为质量和多样性方面最为通用的图像生成模型。它们支持反转真实图像和条件生成（例如，文本生成），使其在高质量图像编辑应用中具有吸引力。本文研究如何利用这些预训练的图像模型进行文本引导的视频编辑。关键挑战在于在保留源视频内容的同时实现目标编辑。方法分为两个简单的步骤：首先，用预训练的结构引导（例如，深度）图像扩散模型对锚点帧进行文本引导编辑；然后，在关键步骤中，通过将变化逐步传播到未来帧来适应扩散模型的核心去噪步骤，使用自注意力特征注入。然后，在继续处理之前，通过调整帧的潜在编

生成转换 xff xff0c xff0 音视频 AIGC

【ICCV2023】MMVP：基于运动矩阵的视频预测

目录导读本文方法步骤1：空间特征提取步骤2：运动矩阵的构造和预测步骤3：未来帧的合成和解码实验实验结果消融实验结论论文链接：https://openaccess.thecvf.com/content/ICCV2023/html/Zhong_MMVP_Motion-Matrix-Based_Video_Prediction_ICCV_2023_paper.html代码：https://github.com/Kay1794/MMVP-motion-matrix-based-video-prediction引用：ZhongY,LiangL,ZharkovI,etal.MMVP:Motion-Mat

矩阵基于 img xff 音视频线性代数人工智能论文阅读

【论文阅读：VisionLAN（ICCV2021）】From Two to One: A New Scene Text Recognizer with Visual Language Modeling

VisionLAN摘要介绍相关工作场景文本识别掩蔽和预测该方法Pipeline屏蔽语言感知模块(MLM模块)视觉推理模块（VRM）训练目标实验数据集实验细节消融实验与先进算法的对比OST数据集上的语言能力中文长数据集的泛化能力定性分析总结运行摘要该论文提出了一种视觉语言建模网络（VisionLAN），它将视觉和语言信息作为一个整体，直接直接赋予视觉模型语言的能力。在训练阶段引入了基于字符的遮挡特征图的文本识别，视觉模型在视觉线索被混淆时（遮挡、噪声等），利用字符的视觉纹理，还利用视觉语境的语言信息进行识别。由于语言信息与视觉特征一起获取，不需要额外的语言模型，因此VisionLAN的速度提高了

Recognizer VisionLAN xff0c xff0 xff 论文阅读人工智能

12 3 4