草庐IT

Detection

全部标签

论文阅读-Joint Audio-Visual Deepfake Detection(音视频Deepfake检测)

一、论文信息论文名称:JointAudio-VisualDeepfakeDetection会议:ICCV2021作者团队:二、动机与创新动机Visualdeepfake上有许多检测方法和数据集,而对audiodeepfake以及visual-audio两种模式之间的deepfake方法较少。AudioDeepfake主要有两个任务:1)TTS:text-to-speech文本转语音;2)VC:voiceconversion语音转换(将一个人语音转为另一个人的声音)。创新本文提出一种新的视觉-听觉Deepfake联合检测任务,利用视觉和听觉两种模式之间的内在关系可以帮助deepfake检测。a中

Ultra-Fast-Lane-Detection代码解析

近期由于学习要求,复现成功Ultra-Fast-Lane-Detection代码后,记录下自己在原理上的学习笔记,本人刚接触这块,有不对的地方欢迎指正。代码链接:GitHub-cfzd/Ultra-Fast-Lane-Detection:UltraFastStructure-awareDeepLaneDetection(ECCV2020)论文创新点:使用全局特征的基于行的选择问题,提出了一个结构损失模型来明确地建模车道的结构。对于车道检测,主流的方法有两种,一种是传统图像处理方法,另一种是深度分割方法。利用全局特征在图像的预定义行中选择车道的位置,而不是基于局部接受域分割车道的每个像素,这大大

PETR: Position Embedding Transformation for Multi-View 3D Object Detection

PETR:PositionEmbeddingTransformationforMulti-View3DObjectDetection作者单位旷视目的DETR3D中2D->3D过程存在的问题:预测的参考点坐标可能不准确,在采样图片特征时可能拿不到对应的特征。只有参考点投影位置的图像特征被使用,无法学到全局的特征。采样图像特征的过程过于复杂,难于应用本文的目标是在DETR的基础上,提出一个简单优雅的3D目标检测框架本文的贡献总结:提出了一个简单优雅的框架,PETR,用于多视角的3D目标检测。提出了一个新的3Dposition-aware表示在nuScenes数据集上达到了sota方法网络结构网络整

【OpenCV】ChArUco标定板角点的检测Detection of ChArUco Corners

opencv3.4.15源文档链接:linkChArUco标定板角点的检测GoalSourcecodeCharuco板创建ChArUco板检测ChArUco姿势估计ArUco标记和板的快速检测和多功能性是非常有用的。然而,ArUco标定板的一个问题是,即使应用亚像素细化,其角点位置的精度也不是太高。相反,棋盘图案的角可以更精确地细化,因为每个角都被两个黑色方块包围。然而,寻找一个棋盘图案不像寻找一个ArUco板:它必须是完全可见的,闭塞是不允许的。(拍摄的图片,标定板必须无遮盖)ChArUco标定板试图结合这两种方法的优点:ArUco部分用于插值棋盘角点的位置,因此它具有标记板的多功能性,因为

目标检测——detr源码复现【 End-to-End Object Detection with Transformers】

1、环境2、文档detr源码地址detr论文地址3、数据集自定义coco数据集4、模型在github上面下载链接:https://pan.baidu.com/s/1fmOYAOZ4yYx_rYquOS6Ycw提取码:74l55、权重文件生成自己所需要的权重文件importtorch#修改路径预训练模型pretrained_weights=torch.load('detr-r50.pth')#修改自己的类别num_classes=3pretrained_weights["model"]["class_embed.weight"].resize_(num_classes+1,256)pretrai

【论文笔记】SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model

原文链接:https://arxiv.org/pdf/2306.02245.pdf1.引言  分割一切模型(SAM)作为视觉领域的基石模型,有强大的泛化性,能解决很多2D视觉问题。但是SAM是否可以适用于3D视觉任务,仍需要被探索。  目前几乎没有关于3D目标检测的零样本学习,如何使SAM的零样本能力适用于3D目标检测是本文的主要研究内容。  本文提出SAM3D,使用SAM分割BEV图,然后从输出的掩膜预测物体。2.方法2.1准备知识  问题定义  给定一个在有标注的源数据集Ds={Xis,Yis}D_s=\{X_i^s,Y_i^s\}Ds​={Xis​,Yis​}上训练的模型FFF,以及一个

【Adversarial Attack in Object Detection】物理对抗攻击和防御

目录安全监控**有无意义**无意义的补丁有意义的补丁光学对抗攻击对抗灯干扰相机成像攻击方法White-boxattacksGradient-basedattacks==Optimization-basedattacks==Black-boxattacksQuery-basedattacksEvolutionalgorithmOUTLOOK在计算机视觉中,根据实现领域,对抗性攻击可以分为数字攻击和物理攻击。数字攻击是指在摄像头成像之后对数字像素进行攻击,物理攻击是指在摄像头成像之前对物理对象进行攻击。虽然数字攻击(如PGD[madry2017towards]、MI-FGSM[dong2018bo

Paper Reading - Loss系列 - Focal Loss for Dense Object Detection

确实发现大神的文章都比较简单明了实用-ICCV2017计算机视觉-Paper&Code-知乎Abstracthttps://arxiv.org/abs/1708.02002https://arxiv.org/abs/1708.02002总结主要为以下几点OHEM算法虽然增加了错分类样本的数量,但是直接把容易样本扔掉了,可会导致过杀率上升,作者同时也做了对比实验,AP有3.+的提升FocalLoss可以通过减少易分类样本的权重,使得模型在训练时更专注于难分类的样本下面这张图展示了FocalLoss取不同的gama时的损失函数下降。Algorithm文章对最基本的对交叉熵进行改进,作为本文实验的b

【开放域目标检测】一:Open-Vocabulary Object Detection Using Captions论文讲解

出发点是制定一种更加通用的目标检测问题,目的是借助于大量的image-caption数据来覆盖更多的objectconcept,使得objectdetection不再受限于带标注数据的少数类别,从而实现更加泛化的objectdetection,识别出更多novel的物体类别。文章目录一、背景&动机二、Open-Vocabulary的简单引入三、Open-Vocabulary/zero-shot/weaklysupervised之间的差异四、论文的核心五、论文流程六、模型结果对比一、背景&动机尽管深度神经网络在目标检测方面具有显著的准确性,但由于监管要求,它们的训练和拓展成本很高。特别是,学习更

javascript - 我如何检测是否安装了 Flash,如果没有,显示一个隐藏的 div 来通知用户?

我如何使用javascript/jQuery/etc来检测是否安装了Flash,如果没有,则显示一个包含信息的div,通知用户他们需要安装flash? 最佳答案 如果swfobject不够用,或者您需要创建一些更定制的东西,试试这个:varhasFlash=false;try{hasFlash=Boolean(newActiveXObject('ShockwaveFlash.ShockwaveFlash'));}catch(exception){hasFlash=('undefined'!=typeofnavigator.mimeT