ATTENTION_草庐IT

【论文笔记】KDD2019 | KGAT: Knowledge Graph Attention Network for Recommendation

Abstract为了更好的推荐，不仅要对user-item交互进行建模，还要将关系信息考虑进来传统方法因子分解机将每个交互都当作一个独立的实例，但是忽略了item之间的关系（eg：一部电影的导演也是另一部电影的演员）高阶关系：用一个/多个链接属性连接两个itemKG+user-itemgraph+highorderrelations—>KGAT递归传播邻域节点（可能是users、items、attributes）的嵌入来更新自身节点的嵌入，并使用注意力机制来区分邻域节点的重要性Introductionu1u_1u1是要向其提供推荐的目标用户。黄色圆圈和灰色圆圈表示通过高阶关系发现但被传统方法

【Transformer开山之作】Attention is all you need原文解读

AttentionIsAllYouNeedTransformer原文解读与细节复现导读在Transformer出现以前，深度学习的基础主流模型可分为卷积神经网络CNN、循环神经网络RNN、图对抗神经网络GAN。而Transformer的横空出世，吸引了越来越多的研究者的关注：Transformer不仅在NLP领域取得了耀眼的成绩，近年来甚至一度屠榜CV领域的各大比赛，热度超前。所以，基于之前对Transformer的研究与理解，更基于对新技术的好奇与渴求，接下来的几篇文章我会从最经典的Transformer结构出发，沿着NLP和CV两大主线，为大家讲解几篇影响力巨大的paper。前言Trans

MultiHead-Attention和Masked-Attention的机制和原理

文章目录一、本文说明二.MultiHeadAttention2.1MultiHeadAttention理论讲解2.2.Pytorch实现MultiHeadAttention三.MaskedAttention3.1为什么要使用Mask掩码3.2如何进行mask掩码3.3为什么是负无穷而不是03.4.训练时的掩码参考资料一、本文说明看本文前，需要先彻底搞懂Self-Attention。推荐看我的另一篇博文层层剖析，让你彻底搞懂Self-Attention、MultiHead-Attention和Masked-Attention的机制和原理。本篇文章内容在上面这篇也有，可以一起看。二.MultiHe

注意力机制——ECANet（Efficient Channel Attention Network）

ECANet（EfficientChannelAttentionNetwork）是一种新颖的注意力机制，用于深度神经网络中的特征提取，它可以有效地减少模型参数量和计算量，提高模型的性能。ECANet注意力机制是针对通道维度的注意力加权机制。它的基本思想是，通过学习通道之间的相关性，自适应地调整通道的权重，以提高网络的性能。ECANet通过两个步骤实现通道注意力加权： 1.提取通道特征 2.计算通道权重用pytorch实现ECANet注意力机制：importtorchimporttorch.nnasnnimporttorch.nn.functionalasFclassECANet

比标准Attention提速5-9倍，大模型都在用的FlashAttention v2来了

近来，几种长上下文语言模型陆续问世，包括GPT-4（上下文长度为32k）、MosaicML的MPT（上下文长度为65k）Anthropic的Claude（上下文长度为100k）。长文档查询和故事写作等新兴用例已经表明扩展语言模型上下文窗口是非常必要的。然而，扩大Transformer的上下文长度是一个挑战，因为其核心的注意力层在时间复杂度和空间复杂度与输入序列长度的平方成正比。一年前，来自斯坦福大学、纽约州立大学布法罗分校的研究者共同提出一种快速、内存高效的注意力算法——FlashAttention。该算法无需任何近似即可加速注意力并减少内存占用。现在，已经有许多机构和研究实验室采用Flash

斯坦福博士一己之力让Attention提速9倍！FlashAttention燃爆显存，Transformer上下文长度史诗级提升

继超快且省内存的注意力算法FlashAttention爆火后，升级版的2代来了。FlashAttention-2是一种从头编写的算法，可以加快注意力并减少其内存占用，且没有任何近似值。比起第一代，FlashAttention-2速度提升了2倍。甚至，相较于PyTorch的标准注意力，其运行速度最高可达9倍。一年前，StanfordAILab博士TriDao发布了FlashAttention，让注意力快了2到4倍，如今，FlashAttention已经被许多企业和研究室采用，广泛应用于大多数LLM库。如今，随着长文档查询、编写故事等新用例的需要，大语言模型的上下文以前比过去变长了许多——GPT-

相对位置编码之RPR式：《Self-Attention with Relative Position Representations》论文笔记

😄额，本想学学XLNet的，然后XLNet又是以transformer-XL为主要结构，然后transformer-XL做了两个改进：一个是结构上做了segment-level的循环机制，一个是在attention机制里引入了相对位置编码信息来避免不同segment的同一位置采用相同的绝对位置编码的不合理。但无奈看到相对位置编码这里我懵住了，只好乖乖追溯回去原始论文来学习学习嘿嘿🐶。🦄本文将以公式原理+举例的方式让你秒懂，放心食用。🚀RPR这论文就5页，方法部分就2页，看完结合网上理解下就ok了。🚀论文链接：https://arxiv.org/pdf/1803.02155.pdf👀三位谷歌大佬

LEA: Improving Sentence Similarity Robustness to Typos Using Lexical Attention Bias 论文阅读

LEA:ImprovingSentenceSimilarityRobustnesstoTyposUsingLexicalAttentionBias论文阅读KDD2023原文地址Introduction文本噪声，如笔误(Typos),拼写错误(Misspelling)和缩写(abbreviations),会影响基于Transformer的模型.主要表现在两个方面:Transformer的架构中不使用字符信息.由噪声引起的词元分布偏移使得相同概念的词元更加难以关联.先前解决噪声问题的工作主要依赖于数据增强策略,主要通过在训练集中加入类似的typos和misspelling进行训练.数据增强确实使得

Multi-Modal Attention Network Learning for Semantic Source Code Retrieval 解读

Multi-ModalAttentionNetworkLearningfor SemanticSourceCodeRetrieva Multi-ModalAttentionNetworkLearningfor SemanticSourceCodeRetrieval，题目意思是用于语义源代码检索的多模态注意网络学习，2019年发表于ASE的##研究什么东西Background:研究代码检索技术，对于一个代码存储库进行方法级别的搜索，给定一个描述代码片段功能的短文，从代码存储库中检索特定的代码片段。论文挑战和贡献前人的做法Gu等人[6]是第一个将深度学习网络应用于代码检索任务的人，它在中间语义空间

注意力机制之SK Attention

1.SKAttention模块链接：SelectiveKernelNetworks2.模型结构图：3.论文主要内容由于不同大小的感受野对于不同尺度的目标有不同的效果，论文目的是使得网络可以自动地利用对分类有效的感受野捕捉到的信息。为了解决这个问题，作者提出了一种新的深度结构在CNN中对卷积核的动态选择机制，该机制允许每个神经元根据输入信息的多尺度自适应地调整其感受野（卷积核）的大小。称为“选择性核（SelectiveKernel）”，它可以更好地捕捉复杂图像空间的多尺度特征，而不会像一般的CNN那样浪费大量的计算资源。SKN的另一个优点是它可以聚合深度特征，使它更容易理解，同时也允许更好的可解