草庐IT

Transformer-Based

全部标签

论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer

论文笔记|【CVPR-2023】ActivatingMorePixelsinImageSuper-ResolutionTransformer抛砖引玉了,如有不同意见欢迎讨论。目录论文笔记|【CVPR-2023】ActivatingMorePixelsinImageSuper-ResolutionTransformer1Motivation2Contribution3Method3.1Overview3.2HAB(HybridAttentionBlock)3.2.1ChannelAttention3.2.2CAB3.2.3OCAB(OverlappingCross-AttentionBlock)

Diffusion Model (扩散生成模型)的基本原理详解(二)Score-Based Generative Modeling(SGM)

本篇是《DiffusionModel(扩散生成模型)的基本原理详解(一)DenoisingDiffusionProbabilisticModels(DDPM)》的续写,继续介绍有关diffusion的另一个相关模型,同理,参考文献和详细内容与上一篇相同,读者可自行查阅,本篇着重介绍Score-BasedGenerativeModeling(SGM)的部分,本篇的理论部分参考与上一节相同,当然涉及了一些原文的理论部分,笔者在这里为了更能让各位读懂,略掉了原文的一些理论证明,感兴趣读者可以自行阅读SongYangetal.SGM原文。笔者只介绍重要思想和重要理论,省略了较多细节篇幅。下一节介绍本基

【论文速递】WACV 2023 - 一种全卷积Transformer的医学影响分割模型

【论文速递】WACV2023-一种全卷积Transformer的医学影响分割模型【论文原文】:TheFullyConvolutionalTransformerforMedicalImageSegmentation【作者信息】:AthanasiosTragakis,ChaitanyaKaul,RoderickMurray-Smith,DirkHusmeier论文:https://openaccess.thecvf.com/content/WACV2023/papers/Tragakis_The_Fully_Convolutional_Transformer_for_Medical_Image_S

BIT 变化检测模型复现 深度学习学习笔记 基于transformer结构的图像处理模型

1.前言:BIT是用transformer结构进行变化检测的一个孪生网络,它的backbone用的是Resnet结构,具体结构分析可以参考这个链接的作者写的,非常清楚,http://t.csdn.cn/rA9sH。下面就是来讲我自己的实现过程,比较简单。2.数据结构首先,在官网找到相应的代码,下载解压到自己的本地。github上面的链接为:https://github.com/justchenhao/BIT_CD然后下载测试数据集LEVIR-CD,链接为:https://justchenhao.github.io/LEVIR/这个BIT需要的数据结构跟直接下载的LEVIR-CD的数据结构不太一

【环境部署】SPECTER模型-基于transformer的科学出版物

论文背景标题:SPECTER:Document-levelRepresentationLearningusingCitation-informedTransformers摘要:表示学习是自然语言处理系统的关键组成部分。像BERT这样的最新Transformer语言模型学习了强大的文本表示,但这些模型针对标记和句子级别的训练目标,并不利用相关性信息,这限制了它们在文档级表示方面的能力。对于科学文献的应用,如分类和推荐,嵌入提供了强大的终端任务性能。我们提出了SPECTER,一种基于预训练Transformer语言模型的科学文档的文档级嵌入生成方法,其依据一个强大的文档级相关性信号:引用图。与现有

论文笔记:FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting

2022ICML1Intro长时间序列问题是一个研究很广泛的问题RNN以及变体会遇到梯度消失/梯度爆炸,这会在很大程度上限制他们的表现Transformer的方法会导致很高的计算复杂度,以及很大的内存消耗,这也会使得在长时间序列上使用Transformer很吃力近来有方法优化Transformer,使其计算复杂度降低但他们大多的思路是少取一些QK对,这就可能导致信息的丢失,进而影响预测的精准度有与此同时,使用Transformer的方法,会在一定程度上难以捕获时间序列的整体特征/分布 比如上图,不难发现预测的结果和实际值,二者的分布有着一定的差距这可能由于Transformer使用的是poin

论文翻译:Text-based Image Editing for Food Images with CLIP

            使用CLIP对食物图像进行基于文本的图像编辑图1:通过文本对食品图像进行处理的结果示例。最左边一栏显示的是原始输入图像。"Chahan"(日语中的炒饭)和"蒸饭"。左起第二至第六列显示了VQGAN-CLIP所处理的图像。每个操作中使用的提示都是将食物名称和"与"一个配料名称结合起来。例如,第二列中的两幅图像分别是用提示语"chahanwithegg"和"ricewithegg"生成的。摘要        最近,大规模的语言-图像预训练模型,如CLIP,由于其对各种任务,包括分类和图像合成的显著能力而引起了广泛的关注。CLIP和GAN的组合可用于基于文本的图像处理和基于文

SRM : A Style-based Recalibration Module for Convolutional Neural Networks论文笔记

整体结构图:StylePooling风格池部分:StyleIntegration风格集成部分1.提出了一个基于风格的重新校准模块(SRM),他通过利用中间特征映射的风格来自适应地重新校准。2.SRM首先通过样式池从特征图的每个通道中提取样式信息,然后通过独立于通道的样式集成估计每个通道的重校正权重。stylepooling简单来说就是通过一个降维操作,可以有效的提取样式信息3.SRM将个体风格地相对重要性融入到特征图中,可以有效地增强CNN的表征能力。个人认为这个所谓的SRM与注意力机制很相似4.SRM动态地估计单个风格的相对重要性,然后根据风格的重要性重新调整特征映射的权重,这允许网络专注于

YOLOv7改进主干ViT系列:全网首发最新 MobileViTv3 系列最强改进版本(三)|轻量化Transformer视觉转换器,简单有效地融合了本地全局和输入特征,高效涨点

?该教程为改进进阶指南,属于《芒果书》?系列,包含大量的原创首发改进方式,所有文章都是全网首发原创改进内容?,本篇是MobileViT系列三个版本中的第三版论文结合YOLOv7改进?本篇文章基于YOLOv7、YOLOv7-tiny等网络:首发最新结合MobileViTv3系列最强版本!:轻量化Transformer视觉转换器,简单有效地融合了本地全局和输入特征,本文将结合YOLO系列应用。重点:?有不少同学已经反应专栏的教程提供的网络结构在数据集上有效涨点!!!重点:?进阶专栏内容持续更新中?☁️?️,订阅了该专栏的读者务必·私信博主·加·全新创新点进阶交流群·群内不定时会发一些其他未公开的T

YOLOv7改进主干ViT系列:全网首发最新 MobileViTv3 系列最强改进版本(三)|轻量化Transformer视觉转换器,简单有效地融合了本地全局和输入特征,高效涨点

?该教程为改进进阶指南,属于《芒果书》?系列,包含大量的原创首发改进方式,所有文章都是全网首发原创改进内容?,本篇是MobileViT系列三个版本中的第三版论文结合YOLOv7改进?本篇文章基于YOLOv7、YOLOv7-tiny等网络:首发最新结合MobileViTv3系列最强版本!:轻量化Transformer视觉转换器,简单有效地融合了本地全局和输入特征,本文将结合YOLO系列应用。重点:?有不少同学已经反应专栏的教程提供的网络结构在数据集上有效涨点!!!重点:?进阶专栏内容持续更新中?☁️?️,订阅了该专栏的读者务必·私信博主·加·全新创新点进阶交流群·群内不定时会发一些其他未公开的T