草庐IT

Multi-attentional

全部标签

《DREEAM Guiding Attention with Evidence for Improving Document-Level Relation Extraction》阅读笔记

代码 原文地址 预备知识:1.什么是K-L散度(Kullback-LeiblerDivergence)?K-L散度,是一种量化两种概率分布P和Q之间差异的方式,又叫相对熵。在概率学和统计学上,我们经常会使用一种更简单的、近似的分布来替代观察数据或太复杂的分布。K-L散度能帮助我们度量使用一个分布来近似另一个分布时所损失的信息量。 2.什么是自训练(self-training)?自训练算法是一种半监督学习算法,在这种算法中,学习者不断标记未标记的样本,并在一个扩大的标记训练集上对自己进行再训练。由于自训练过程可能会错误地标记一些未标记的示例,因此有时学习到的假设不能很好地执行。  摘要文档级关系

图像融合论文阅读:DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion

@article{zhao2023ddfm,title={DDFM:denoisingdiffusionmodelformulti-modalityimagefusion},author={Zhao,ZixiangandBai,HaowenandZhu,YuanzhiandZhang,JiangsheandXu,ShuangandZhang,YulunandZhang,KaiandMeng,DeyuandTimofte,RaduandVanGool,Luc},journal={arXivpreprintarXiv:2303.06840},year={2023}}论文级别:ICCV2023影响因

​新一代注意力机制Lightning Attention-2:无限序列长度、恒定算力开销、更高建模精度

大语言模型序列长度的限制,极大地制约了其在人工智能领域的应用,比如多轮对话、长文本理解、多模态数据的处理与生成等。造成这一限制的根本原因在于当前大语言模型均采用的Transformer架构有着相对于序列长度的二次计算复杂度。这意味着随着序列长度的增加,需要的计算资源成几何倍数提升。如何高效地处理长序列一直是大语言模型的挑战之一。之前的方法往往集中在如何让大语言模型在推理阶段适应更长的序列。比如采用Alibi或者类似的相对位置编码的方式来让模型自适应不同的输入序列长度,亦或采用对RoPE等类似的相对位置编码进行差值的方式,在已经完成训练的模型上再进行进一步的短暂精调来达到扩增序列长度的目的。这些

【强化学习-读书笔记】多臂赌博机 Multi-armed bandit

参考ReinforcementLearning,SecondEditionAnIntroductionByRichardS.SuttonandAndrewG.Barto强化学习与监督学习强化学习与其他机器学习方法最大的不同,就在于前者的训练信号是用来评估(而不是指导)给定动作的好坏的。强化学习:评估性反馈有监督学习:指导性反馈价值函数最优价值函数,是给定动作aaa的期望,可以理解为理论最优q∗(a)≐E[Rt∣At=a]q_*(a)\doteq\mathbb{E}[R_t|A_t=a]q∗​(a)≐E[Rt​∣At​=a]我们将算法对动作aaa在时刻ttt时的价值的估计记作Qt(a)Q_t(a

论文推荐:ACMix整合self-Attention和Convolution (ACMix)的优点的混合模型

混合模型ACmix将自注意与卷积的整合,同时具有自注意和卷积的优点。这是清华大学、华为和北京人工智能研究院共同发布在2022年CVPR中的论文卷积分解与自注意力卷积分解标准卷积:重写为来自不同内核位置的特征映射的总和:这里的:为了进一步简化公式,使用Shift操作的定义:g(p,q)ij可以改写为:由上得出,标准卷积可以概括为两个阶段:在第一阶段,输入特征从某个位置(p,q)核权重进行线性投影。这与标准的1×1卷积相同。在第二阶段,投影特征图根据内核位置移动并最终聚合在一起。自注意力分解考虑一个有N个头的标准自注意模块。注意力模块的输出为:其中||是N个注意头输出的级联。注意力权重计算为:多头

论文阅读 Attention is all u need - transformer

文章目录1摘要1.1核心2模型架构2.1概览2.2理解encoder-decoder架构2.2.1对比seq2seq,RNN2.2.2我的理解3.Sublayer3.1多头注意力multi-headself-attention3.1.1缩放点乘注意力ScaledDot-ProductAttention3.1.2QKV3.1.3multi-head3.1.4masked3.2线性层MLP3.3embeddingandsoftmax3.4positionalencoding3.5dropout总结附[李沐b站对该论文理解的一些题目和答案](https://zhuanlan.zhihu.com/p/

【论文阅读】MCANet: Medical Image Segmentation with Multi-Scale Cross-Axis Attention

文章目录摘要创新点总结实现效果总结摘要链接:https://arxiv.org/abs/2312.08866医学图像分割是医学图像处理和计算机视觉领域的关键挑战之一。由于病变区域或器官的大小和形状各异,有效地捕捉多尺度信息和建立像素间的长距离依赖性至关重要。本文提出了一种基于高效轴向注意力的多尺度交叉轴注意(MCA)方法来解决这些问题。MCA通过计算两个并行轴向注意力之间的双向交叉注意力,以更好地捕获全局信息。此外,为了处理病变区域或器官在个体大小和形状上的显著变化,我们还在每个轴向注意力路径中使用不同大小的条形卷积核进行多次卷积,以提高编码空间信息的效率。我们将提出的MCA构建在MSCAN主

《An End-to-end Model for Entity-level Relation Extraction using Multi-instance Learning》阅读笔记

代码 原文地址 预备知识:1.什么是MIL?多示例学习(MIL)是一种机器学习的方法,它的特点是每个训练数据不是一个单独的实例,而是一个包含多个实例的集合(称为包)。每个包有一个标签,但是包中的实例没有标签。MIL的目的是根据包的标签来学习实例的特征和分类规则,或者根据实例的特征来预测包的标签。MIL的应用场景包括药物活性预测、图像分类、文本分类、关系抽取等。MIL的挑战在于如何处理实例之间的相关性、标签的不确定性和数据的不平衡性。MIL的常用算法有基于贝叶斯、KNN、决策树、规则归纳、神经网络等的方法,以及基于注意力机制、自编码器、变分推断等的方法。 2.什么是基于跨度(span)的命名实体

ImageBind-LLM: Multi-modality Instruction Tuning 论文阅读笔记

ImageBind-LLM:Multi-modalityInstructionTuning论文阅读笔记Method方法BindNetworkRMSNorm的原理及与LayerNorm的对比RelatedWord/PriorWorkLLaMA-Adapter联系我们本文主要基于LLaMA和ImageBind工作,结合多模态信息和文本指令来实现一系列任务。训练中仅使用图像文本信息作为多模态信息提取能力的训练数据(onlyleveragethevision-languagedataformulti-modalityinstructiontuning)。Github代码link.Method方法对于一

【论文精读】HAMMER: Learning Entropy Maps to Create Accurate 3D Models in Multi-View Stereo

今天读一篇WACV2024上MVS的文章,作者来自格拉茨技术大学。文章链接:点击前往Abstract为了减少在深度图融合点云参数调整上的实验负担,可以学习基于entropy的filteringmask进而根据两个视角的几何验证来重建三维模型。并且,提出的网络计算开销不大,训练只需要6GB,测试时,3.6GB即可处理1920*1024的图片,性能也和sota很接近。1IntroductionMVS问题当中,尽管输出首先是深度图,但当今最常见的基准测试是评估点云,即3D模型而不是深度图。虽然深度图的创建是由神经网络处理的,但点云仍然通过检查几何和光度一致性以经典方式生成。photometricma