草庐IT

扩散Transformer

全部标签

Swin-transformer论文阅读笔记(Swin Transformer: Hierarchical Vision Transformer using Shifted Windows)

论文标题:SwinTransformer:HierarchicalVisionTransformerusingShiftedWindows论文作者:ZeLiu,YutongLin,YueCao,HanHu,YixuanWei,ZhengZhang,StephenLin,BainingGuo论文来源:ICCV2021,Paper代码来源:Code目录1.背景介绍2.研究现状CNN及其变体基于自注意的骨干架构自注意/Transformer来补充CNNs基于Transformer的视觉主干3.方法3.1总体架构SwinTransformerblock3.2基于移位窗口的自注意非重叠窗口中的自注意在连

Vision Transformer(VIT)

VisionTransformer(VIT)VisionTransformer(ViT)是一种新兴的图像分类模型,它使用了类似于自然语言处理中的Transformer的结构来处理图像。这种方法通过将输入图像分解成一组图像块,并将这些块变换为一组向量来处理图像。然后,这些向量被输入到Transformer编码器中,以便对它们进行进一步的处理。ViT在许多计算机视觉任务中取得了与传统卷积神经网络相当的性能,但其在处理大尺寸图像和长序列数据方面具有优势。与自然语言处理(NLP)中的Transformer模型类似,ViT模型也可以通过预训练来学习图像的通用特征表示。在预训练过程中,ViT模型通常使用自

苹果文生图大模型亮相:俄罗斯套娃式扩散,支持1024x1024分辨率

在生成式AI时代,扩散模型已经成为图像、视频、3D、音频和文本生成等生成式AI应用的流行工具。然而将扩散模型拓展到高分辨率领域仍然面临巨大挑战,这是因为模型必须在每个步骤重新编码所有的高分辨率输入。解决这些挑战需要使用带有注意力块的深层架构,这使得优化更困难,消耗的算力和内存也更多。怎么办呢?最近的一些工作专注于研究用于高分辨率图像的高效网络架构。但是现有方法都没有展示出超过512×512分辨率的效果,并且生成质量落后于主流的级联或latent方法。我们以OpenAIDALL-E2、谷歌IMAGEN和英伟达eDiffI为例,它们通过学习一个低分辨率模型和多个超分辨率扩散模型来节省算力,其中每个

更高清写实的人体生成模型HyperHuman来了,基于隐式结构扩散,刷新多项SOTA

论文地址:https://arxiv.org/pdf/2310.08579.pdfGithub地址:https://github.com/snap-research/HyperHuman1.研究背景与动机随着扩散模型的兴起,一些典型的模型例如StableDiffusion,DALL-E2等在文本生成图像任务上展现了令人震撼的能力。但一个明显的不足是,这些模型在文本生成人体图片的任务上表现得不尽如人意,甚至很难生成具有合理结构或自然姿态的人体(例如正确的四肢数目和符合人体物理结构的几何拓扑)。背后的主要原因在于:自然环境下的人体是铰接的,且包含刚性和非刚性的形变;生成高质量的人体图片需要文本难以

西湖大学利用 Transformer 分析百亿多肽的自组装特性,破解自组装法则

多肽是两个以上氨基酸通过肽键组成的生物活性物质,可以通过折叠、螺旋形成更高级的蛋白质结构。多肽不仅与多个生理活动相关联,还可以自组装成纳米粒子,参与到生物检测、药物递送、组织工程中。然而,多肽的序列组成过于多样,仅10个氨基酸就可以组成超过百亿种多肽。因此,人们很难对其自组装特性进行全面系统的研究,进而优化自组装多肽的设计。为此,西湖大学的李文彬课题组利用基于Transformer的回归网络,对百亿种多肽的自组装特性进行了预测,并分析得到了不同位置氨基酸对自组装特性的影响,为自组装多肽的研究提供了强力的新工具。作者|雪菜编辑|三羊多肽是两个以上氨基酸通过肽键组成的生物活性物质。多肽合成便利、可

【论文阅读】面向抽取和理解基于Transformer的自动作文评分模型的隐式评价标准(实验结果部分)

方法结果在这一部分,我们展示对于每个模型比较的聚合的统计分析当涉及到计算特征和独立的特征组(表格1),抽取功能组和对齐重要功能组(表格2),并且最后,我们提供从模型比较(LANGUAGE模型v.s.MAINIDEA模型)中获取的样例。由于长度限制,我们只展示了这个比较的细节样例。相似的图片和相关性分析展示在Github上。1.独立特征组因为每个训练好的模型都从他们的训练集合中留出一个不同集合的主题,分析集中相同的主题需要被识别出来,并且那么,抽取的特征的数量和导致的独立特征组在每个模型比较中不同。为每个模型比较计算独立的特征组(表格1),对所有的比较,都产生了在原先70%和77%之间的抽取的特

【视频理解】2022-CVPR-Video Swin Transformer

2022-CVPR-VideoSwinTransformerVideoSwinTransformer摘要1.引言2.相关工作3.VideoSwinTransformer3.1.总体架构3.2.基于3D平移窗口的MSA模块3.3.结构变量3.4.从预训练模型初始化4.实验4.1.设置4.2.与最先进技术的比较4.3.消融实验5.结论参考文献VideoSwinTransformer论文地址摘要 视觉领域正在见证从CNN到Transformers的建模转变,纯Transformer架构在主要视频识别基准测试中达到了最高准确度。这些视频模型都建立在Transformer层之上,Transformer层

transformer 4 RuntimeError: Expected tensor for argument #1 ‘indices‘ to have scalar type Long

        在使用transformer4.0时,报错误提示RuntimeError:Expectedtensorforargument#1'indices'tohavescalartypeLong;butgottorch.IntTensorinstead(whilecheckingargumentsforembedding)。该问题主要时由于tensor的类型导致的,解决方法是在相应报错行的前一行对数据类型进行转换。假设输入数据为x,那么增加行为“x =torch.tensor(x).to(torch.int64)”。        如果修改之后仍然出现该错误,并且发生错误的位置发生变化

Diffusion扩散模型简述 + 代码demo

      与GANFLOWVAE类似扩散模型是一种生成模型。需要用到的概率事实:条件概率马尔科夫链的转移公式高斯分布的KL散度公式KL(P,Q)=logσ2σ1+σ2+(μ1−μ2)22σ22−12(其中P.Q为一维高斯分布)KL(P,Q)=log\frac{\sigma_2}{\sigma_1}+\frac{\sigma^2+(\mu_1-\mu_2)^2}{2\sigma_2^2}-\frac12{\tiny(其中P.Q为一维高斯分布)}KL(P,Q)=logσ1​σ2​​+2σ22​σ2+(μ1​−μ2​)2​−21​(其中P.Q为一维高斯分布)重参数技巧(从特殊高斯分布中采样点时不可

VL系列 Exchanging-based Multimodal Fusion with Transformer 论文阅读笔记

多模态融合Exchanging-basedMultimodalFusionwithTransformer论文阅读笔记一、Abstract二、引言三、相关工作3.1深度多模态融合四、方法4.1低维投影和embedding归一化低维投影Embedding归一化4.2多模态交换Transformer基础CrossTransformer4.3训练目标五、实验5.1多模态命名实体识别部署实施结果5.2多模态情感分析实施结果5.3消融研究5.4超参数敏感分析交换率θ\thetaθ初始层μ\muμ终止层η\etaη六、结论写在前面  又是一个周末&教师节,祝老师们节日快乐呀。依惯例,论文读起来~  这是一篇