ViT简述【Transformer】

【自然语言处理】【大模型】用于大型Transformer的8-bit矩阵乘法介绍

用于大型Transformer的8-bit矩阵乘法介绍原文地址：AGentleIntroductionto8-bitMatrixMultiplicationfortransformersatscaleusingtransformers,accelerateandbitsandbytes相关博客【深度学习】【分布式训练】Collective通信操作及Pytorch示例【自然语言处理】【大模型】大语言模型BLOOM推理工具测试【自然语言处理】【大模型】GLM-130B：一个开源双语预训练语言模型【自然语言处理】【大模型】用于大型Transformer的8-bit矩阵乘法介绍【自然语言处理】【大模型

详细理解（学习笔记） | DETR（整合了Transformer的目标检测框架） DETR入门解读以及Transformer的实操实现

文章目录一、概述二、TransformerTransformer的pytorch实现三、DETRTransformer.pyposition_encoding.pydetr.pyclassDETRclassSetCriterion分类lossboxlossDETR在全景分割上的应用（浅看）最后（个人见解）一、概述DETR，全称DEtectionTRansformer，是Facebook提出的基于Transformer的端到端目标检测网络，发表于ECCV2020。原文：链接源码：链接DETR端到端目标检测网络模型，是第一个将Transformer成功整合为检测pipline中心构建块的目标检测框

（论文加源码）基于deap数据集的transformer结合注意力机制脑电情绪识别

本篇论文是2021年新发表的一篇论文。也是目前有源码的论文中唯一一篇使用transformer模型和注意力机制的论文源码（pytorch和tensorflow版本均有）论文及源码见个人主页：https://download.csdn.net/download/qq_45874683/87658878（论文加源码）基于deap数据集的transformer结合注意力机制脑电情绪识别(13条消息)（论文加源码）基于deap数据集的transformer结合注意力机制脑电情绪识别-深度学习文档类资源-CSDN文库摘要：对人类进行准确的情绪评估可以证明在医疗保健、安全调查和人际交往中是有益的。

ECC功能简述及其原理

一NORFLASH和NANDFLASH的区别1、NOR的特点是芯片内执行(XIP,eXecuteInPlace),这样应用程序可以直接在flash闪存内运行,不必再把代码读到系统RAM中。优点是可以直接从FLASH中运行程序,但是工艺复杂,价格比较贵,NOR的传输效率很高,在1～4MB的小容量时具有很高的成本效益,但是很低的写入和擦除速度大大影响了它的性能。NAND结构能提供极高的单元密度,可以达到高存储密度,并且写入和擦除的速度也很快。应用NAND的困难在于flash的管理和需要特殊的系统接口。优点：大存储容量,而且便宜。缺点,就是无法寻址直接运行程序,只能存储数据。另外NANDFLASH非

论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer

论文笔记|【CVPR-2023】ActivatingMorePixelsinImageSuper-ResolutionTransformer抛砖引玉了，如有不同意见欢迎讨论。目录论文笔记|【CVPR-2023】ActivatingMorePixelsinImageSuper-ResolutionTransformer1Motivation2Contribution3Method3.1Overview3.2HAB(HybridAttentionBlock)3.2.1ChannelAttention3.2.2CAB3.2.3OCAB(OverlappingCross-AttentionBlock)

【论文速递】WACV 2023 - 一种全卷积Transformer的医学影响分割模型

【论文速递】WACV2023-一种全卷积Transformer的医学影响分割模型【论文原文】：TheFullyConvolutionalTransformerforMedicalImageSegmentation【作者信息】：AthanasiosTragakis,ChaitanyaKaul,RoderickMurray-Smith,DirkHusmeier论文：https://openaccess.thecvf.com/content/WACV2023/papers/Tragakis_The_Fully_Convolutional_Transformer_for_Medical_Image_S

BIT 变化检测模型复现深度学习学习笔记基于transformer结构的图像处理模型

1.前言：BIT是用transformer结构进行变化检测的一个孪生网络，它的backbone用的是Resnet结构，具体结构分析可以参考这个链接的作者写的，非常清楚,http://t.csdn.cn/rA9sH。下面就是来讲我自己的实现过程，比较简单。2.数据结构首先，在官网找到相应的代码，下载解压到自己的本地。github上面的链接为：https://github.com/justchenhao/BIT_CD然后下载测试数据集LEVIR-CD，链接为：https://justchenhao.github.io/LEVIR/这个BIT需要的数据结构跟直接下载的LEVIR-CD的数据结构不太一

理解ViT（结合代码）

关于vit的网络详解建议去b站看我b站导师的视频11.1VisionTransformer(vit)网络详解_哔哩哔哩_bilibili这篇文章只讲述我看完视频和代码之后对ViT的理解，特别是代码中是怎么实现的网络结构。1.整体结构这是论文中给出的图，整体思想就是将图片给切成一个个patch，将patchs看作是NLP中的单词输入进网络，通过数个TransformerEncoder后输出classtoken来进行分类。下图是我b站导师博客中的自己画的图，博文链接为VisionTransformer详解_太阳花的小绿豆的博客-CSDN博客整体的结构还是很清晰的，接下来我就结合代码来一步步讲解V

【环境部署】SPECTER模型-基于transformer的科学出版物

论文背景标题：SPECTER:Document-levelRepresentationLearningusingCitation-informedTransformers摘要：表示学习是自然语言处理系统的关键组成部分。像BERT这样的最新Transformer语言模型学习了强大的文本表示，但这些模型针对标记和句子级别的训练目标，并不利用相关性信息，这限制了它们在文档级表示方面的能力。对于科学文献的应用，如分类和推荐，嵌入提供了强大的终端任务性能。我们提出了SPECTER，一种基于预训练Transformer语言模型的科学文档的文档级嵌入生成方法，其依据一个强大的文档级相关性信号：引用图。与现有

论文笔记：FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting

2022ICML1Intro长时间序列问题是一个研究很广泛的问题RNN以及变体会遇到梯度消失/梯度爆炸，这会在很大程度上限制他们的表现Transformer的方法会导致很高的计算复杂度，以及很大的内存消耗，这也会使得在长时间序列上使用Transformer很吃力近来有方法优化Transformer，使其计算复杂度降低但他们大多的思路是少取一些QK对，这就可能导致信息的丢失，进而影响预测的精准度有与此同时，使用Transformer的方法，会在一定程度上难以捕获时间序列的整体特征/分布比如上图，不难发现预测的结果和实际值，二者的分布有着一定的差距这可能由于Transformer使用的是poin