草庐IT

TRANSFORMER

全部标签

最新NaViT模型炸场!适用任何长宽比+分辨率,性能能打的Transformer

今天要介绍的是NaViT,这是一种适用于任何长宽比以及分辨率的Transformer模型。在使用计算机视觉模型处理图像之前,要先将图像调整到固定的分辨率,这种方式很普遍,但并不是最佳选择。VisionTransformer(ViT)等模型提供了灵活的基于序列的建模,因此可以改变输入序列的长度。在本篇论文中,研究人员利用NaViT(原生分辨率ViT)的这一优势,在训练过程中使用序列打包,来处理任意分辨率和长宽比的输入内容。在灵活使用模型的同时,研究人员还展示了在大规模监督和对比图像-文本预训练中训练效率的提高。NaViT可以高效地应用于图像和视频分类、物体检测和语义分割等标准任务,并在鲁棒性和公

Github复现-测试基于transformer的变化检测模型BIT_CD

源码链接: GitHub-justchenhao/BIT_CD:OfficialPytorchImplementationof"RemoteSensingImageChangeDetectionwithTransformers"OfficialPytorchImplementationof"RemoteSensingImageChangeDetectionwithTransformers"-GitHub-justchenhao/BIT_CD:OfficialPytorchImplementationof"RemoteSensingImageChangeDetectionwithTransfor

Github复现-测试基于transformer的变化检测模型BIT_CD

源码链接: GitHub-justchenhao/BIT_CD:OfficialPytorchImplementationof"RemoteSensingImageChangeDetectionwithTransformers"OfficialPytorchImplementationof"RemoteSensingImageChangeDetectionwithTransformers"-GitHub-justchenhao/BIT_CD:OfficialPytorchImplementationof"RemoteSensingImageChangeDetectionwithTransfor

【原创】理解ChatGPT之注意力机制和Transformer入门

作者:黑夜路人时间:2023年4月27日想要连贯学习本内容请阅读之前文章:【原创】理解ChatGPT之GPT工作原理【原创】理解ChatGPT之机器学习入门【原创】AIGC之ChatGPT高级使用技巧GPT是什么意思GPT的全称是GenerativePre-trainedTransformer(生成型预训练变换模型),它是基于大量语料数据上训练,以生成类似于人类自然语言的文本。其名称中的“预训练”指的是在大型文本语料库上进行的初始训练过程,其中模型学习预测文章中下一个单词,它可以完成各种自然语言处理任务,例如文本生成、代码生成、视频生成、文本问答、图像生成、论文写作、影视创作、科学实验设计等等

论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

原文链接:2022CVPR2022MAT:Mask-AwareTransformerforLargeHoleImageInpainting [pdf] [code]本文创新点:开发了一种新颖的修复框架MAT,是第一个能够直接处理高分辨率图像的基于transformer的修复系统。提出了一种新的多头自注意力(MSA)变体,称为多头上下文注意力(MCA),只使用有效的token来计算注意力。设计了一个风格操作模块,使模型能够通过调节卷积的权重来提供不同的预测结果。网络结构网络分为粗修复与细修复两个阶段。粗修复主要由一个卷积头,五个transformer模块和一个卷积尾构成;细修复采用一个Conv-

Swin Transformer之相对位置编码详解

目录一、概要二、具体解析1.相对位置索引计算第一步 2.相对位置索引计算第二步3.相对位置索引计算第三步一、概要   在SwinTransformer采用了相对位置编码的概念。   那么相对位置编码的作用是什么呢?      解释:在解释相对位置编码之前,我们需要先了解一下在NLP中PositionEncoder即PE,NLP中Position_Encoder理解      在SwinTransformer中,将特征图如按7*7的窗口大小划分为多个小窗格,单独在每个小窗格内进行Attention计算。这样一来,窗口内就相当于有      49个Token即49个像素值,这些像素是有一定的位置关

Swin Transformer之相对位置编码详解

目录一、概要二、具体解析1.相对位置索引计算第一步 2.相对位置索引计算第二步3.相对位置索引计算第三步一、概要   在SwinTransformer采用了相对位置编码的概念。   那么相对位置编码的作用是什么呢?      解释:在解释相对位置编码之前,我们需要先了解一下在NLP中PositionEncoder即PE,NLP中Position_Encoder理解      在SwinTransformer中,将特征图如按7*7的窗口大小划分为多个小窗格,单独在每个小窗格内进行Attention计算。这样一来,窗口内就相当于有      49个Token即49个像素值,这些像素是有一定的位置关

GPT2模型详解

一背景介绍GPT2模型是OpenAI组织在2018年于GPT模型的基础上发布的新预训练模型,其论文原文为language_models_are_unsupervised_multitask_learnersGPT2模型的预训练语料库为超过40G的近8000万的网页文本数据,GPT2的预训练语料库相较于GPT而言增大了将近10倍。二GPT2与GPT模型的区别3GPT2模型结构GPT-2模型由多层单向Transformer的解码器部分构成,本质上是自回归模型,自回归的意思是指,每次产生新单词后,将新单词加到原输入句后面,作为新的输入句。其中Transformer解码器结构如下图:GPT-2模型中只

GPT2模型详解

一背景介绍GPT2模型是OpenAI组织在2018年于GPT模型的基础上发布的新预训练模型,其论文原文为language_models_are_unsupervised_multitask_learnersGPT2模型的预训练语料库为超过40G的近8000万的网页文本数据,GPT2的预训练语料库相较于GPT而言增大了将近10倍。二GPT2与GPT模型的区别3GPT2模型结构GPT-2模型由多层单向Transformer的解码器部分构成,本质上是自回归模型,自回归的意思是指,每次产生新单词后,将新单词加到原输入句后面,作为新的输入句。其中Transformer解码器结构如下图:GPT-2模型中只

斯坦福博士一己之力让Attention提速9倍!FlashAttention燃爆显存,Transformer上下文长度史诗级提升

继超快且省内存的注意力算法FlashAttention爆火后,升级版的2代来了。FlashAttention-2是一种从头编写的算法,可以加快注意力并减少其内存占用,且没有任何近似值。比起第一代,FlashAttention-2速度提升了2倍。甚至,相较于PyTorch的标准注意力,其运行速度最高可达9倍。一年前,StanfordAILab博士TriDao发布了FlashAttention,让注意力快了2到4倍,如今,FlashAttention已经被许多企业和研究室采用,广泛应用于大多数LLM库。如今,随着长文档查询、编写故事等新用例的需要,大语言模型的上下文以前比过去变长了许多——GPT-