【论文精读CVPR_2020】FaceShifter:TowardsHighFidelityAndOcclusionAwareFaceSwapping0、前言Abstract1.Introduction2.RelatedWorks2.13D-BasedApproaches.2.2GAN-BasedApproaches.3.Methods3.1.AdaptiveEmbeddingIntegrationNetwork3.1.1IdentityEncoder:3.1.2Multi-levelAttributesEncoder:3.1.3AdaptiveAttentionalDenormalizati
目录写在前面一、moco的主要思想二、代码精读2.1代码结构2.2main_moco.py2.2.1参数设置defmain():defmain_worker(gpu,ngpus_per_node,args)deftrain(train_loader,model,criterion,optimizer,epoch,args)2.3moco文件夹2.3.1loader.py2.3.2builder.py模型初始化样本队列动量编码器模型前向过程2.4main_cls.py写在前面本人刚入门自监督学习,对自监督学习的了解还停留在理论阶段,现在想为自己开一个坑,即这个自监督学习代码阅读合集,一方面可以加
【论文精读CVPR_2021】HifiFace:3DShapeandSemanticPriorGuidedHighFidelityFaceSwapping0、前言Abstract1Introduction2RelatedWork2.13D-basedMethods.2.2GAN-basedMethods.3Approach3.13DShape-AwareIdentityExtractor3.2SemanticFacialFusionModule3.2.1Feature-Level.3.2.2Image-Level.3.3LossFunction
Video-LLaMA:AnInstruction-tunedAudio-VisualLanguageModelforVideoUnderstandingvideo-LLaMA一种用于视频理解的指令调整视听语言模型引言 Video-LLaMA一个使大型语言模型(LLM)能够理解视频中的视觉和听觉的内容的多模态框架。它从冻结的预训练的视觉和音频encoder以及冻结的LLM中引导跨模态训练。 与之前专注于静态图像的视觉LLM不同,如(MiniGPT-4/LLaVA),Video-LLaMA主要解决了两个挑战捕捉视觉场景中的时间变化提出一种视频QFormer,将预训练的
2022-ActivatingMorePixelsinImageSuper-ResolutionTransformer(HAT)基本信息作者:XiangyuChen,XintaoWang,JiantaoZhou,andChaoDong期刊:引用:摘要:基于Transformer的方法在图像超分辨率等低级视觉任务中表现出令人印象深刻的性能。然而,我们发现这些网络只能通过归因分析利用有限空间范围的输入信息。这意味着Transformer的潜力在现有网络中仍未得到充分利用。为了激活更多的输入像素进行重建,我们提出了一种新颖的混合注意力转换器(HAT)。它结合了通道注意力(CAB)和自注意力([S]W
文章目录声明引文1.点云数据格式2.点云的特点2.1.1点云的置换不变性2.1.2点云的相互关系2.1.3点云的旋转不变性3.传统处理方式Abstract点云数据的特性补充1.Introduction2.RelatedWork3.ProblemStatement4.DeepLearningonPointSets4.2.PointNetArchitecture4.3TheoreticalAnalysis(理论分析)5.2ArchitectureDesignAnalysis结构设计分析6.Conclusion7.附个人总结1.motivation2.PointNetArchitecture3.Th
DiFi:AGo-as-You-PayWi-FiAccessSystemAbstractAsvideostreamingservicesbecomemorepopular,usersdesirehighperceivedvideoquality,whichhasplacedmorestringentrequirementsonthequalityofconnection.ExistingissuesofcellularnetworksencourageuserstoseekalternativeconnectionssuchaspublicWi-Finetworks;however,expec
YOLOv3:AnIncrementalImprovementYOLOv3:一个增量的改进关键词:标签多对一、多尺度、边界框先验(聚类)、 维度集群、Darknet-53目录一、摘要二、随性介绍三、改进的细节(1)BoundingBoxPrediction(2)ClassPrediction(3)PredictionsAcrossScales(4)FeatureExtractor(5)Training四、对比实验五、我们尝试的没有奏效的方法六、作者的三观:这一切意味着什么?一、摘要我们对YOLO做了一些更新!我们做了一堆小的设计变更,使其变得更好。我们还训练了这个非常庞大的新网络。它比上次大一
文章目录论文精读摘要1.介绍(Introduction)2.相关工作(RelatedWorks)2.1BEV三维物体探测器(BEV3DObjectDetector)2.2摄像机三维目标检测中的辅助损失(AuxiliaryLossinCamera3DObjectDetection)2.3二阶段的三维物体探测器(Two-stage3DObjectDetector)3.BEVFormerv23.1总体架构(OverallArchitecture)3.2透视监督(PerspectiveSupervision)3.3透视损失(PerspectiveLoss)3.4改进时间编码器(RavampedTemp
人工智能导论——口罩佩戴检测详解(附带MTCNN论文精读)一、问题重述 随着人类的科技不断进步,病毒也在随之更新迭代;在19年席卷全球的新冠肺炎疫情给人们的生活带来了极大的灾难,造成了无数的人因此失去生命,同时也给高速增长的经济按下了暂停键。防止这种传染疾病的最常见的办法就是佩戴口罩;在人员密集的共同场合,如果只让工作人员来监督口罩佩戴检测的问题显然是极为困难的,所以我们考虑利用CV中深度学习技术来实现口罩佩戴检测。 在本次实验中,我们一共需要完成两个任务目标,首先是针对给定图片进行检测,检测出其中的人脸,同时在检测出的人脸的前提下进行口罩佩戴检测。二、设计思想 本次实验我们采取的办法是