代码 原文地址 预备知识:1.什么是K-L散度(Kullback-LeiblerDivergence)?K-L散度,是一种量化两种概率分布P和Q之间差异的方式,又叫相对熵。在概率学和统计学上,我们经常会使用一种更简单的、近似的分布来替代观察数据或太复杂的分布。K-L散度能帮助我们度量使用一个分布来近似另一个分布时所损失的信息量。 2.什么是自训练(self-training)?自训练算法是一种半监督学习算法,在这种算法中,学习者不断标记未标记的样本,并在一个扩大的标记训练集上对自己进行再训练。由于自训练过程可能会错误地标记一些未标记的示例,因此有时学习到的假设不能很好地执行。 摘要文档级关系
文章目录摘要1.问题的提出引出当前研究的不足与问题属性不平衡问题属性共现问题解决方案2.数据集和模型构建数据集传统的零样本学习范式v.s.DUET学习范式DUET模型总览属性级别对比学习==正负样本解释:==3.结果分析VIT-basedvisiontransformerencoder.消融研究消融研究解释4.结论与启示结论总结启发PLMs的潜在语义知识引入多模态,跨模态整合细粒度角度考虑原文链接:https://ojs.aaai.org/index.php/AAAI/article/view/25114/24886该论文设计了一种新的零样本学习范式,通过迁移语言模型中的先验语义知识,与视觉模
大语言模型序列长度的限制,极大地制约了其在人工智能领域的应用,比如多轮对话、长文本理解、多模态数据的处理与生成等。造成这一限制的根本原因在于当前大语言模型均采用的Transformer架构有着相对于序列长度的二次计算复杂度。这意味着随着序列长度的增加,需要的计算资源成几何倍数提升。如何高效地处理长序列一直是大语言模型的挑战之一。之前的方法往往集中在如何让大语言模型在推理阶段适应更长的序列。比如采用Alibi或者类似的相对位置编码的方式来让模型自适应不同的输入序列长度,亦或采用对RoPE等类似的相对位置编码进行差值的方式,在已经完成训练的模型上再进行进一步的短暂精调来达到扩增序列长度的目的。这些
混合模型ACmix将自注意与卷积的整合,同时具有自注意和卷积的优点。这是清华大学、华为和北京人工智能研究院共同发布在2022年CVPR中的论文卷积分解与自注意力卷积分解标准卷积:重写为来自不同内核位置的特征映射的总和:这里的:为了进一步简化公式,使用Shift操作的定义:g(p,q)ij可以改写为:由上得出,标准卷积可以概括为两个阶段:在第一阶段,输入特征从某个位置(p,q)核权重进行线性投影。这与标准的1×1卷积相同。在第二阶段,投影特征图根据内核位置移动并最终聚合在一起。自注意力分解考虑一个有N个头的标准自注意模块。注意力模块的输出为:其中||是N个注意头输出的级联。注意力权重计算为:多头
文章目录1摘要1.1核心2模型架构2.1概览2.2理解encoder-decoder架构2.2.1对比seq2seq,RNN2.2.2我的理解3.Sublayer3.1多头注意力multi-headself-attention3.1.1缩放点乘注意力ScaledDot-ProductAttention3.1.2QKV3.1.3multi-head3.1.4masked3.2线性层MLP3.3embeddingandsoftmax3.4positionalencoding3.5dropout总结附[李沐b站对该论文理解的一些题目和答案](https://zhuanlan.zhihu.com/p/
文章目录摘要创新点总结实现效果总结摘要链接:https://arxiv.org/abs/2312.08866医学图像分割是医学图像处理和计算机视觉领域的关键挑战之一。由于病变区域或器官的大小和形状各异,有效地捕捉多尺度信息和建立像素间的长距离依赖性至关重要。本文提出了一种基于高效轴向注意力的多尺度交叉轴注意(MCA)方法来解决这些问题。MCA通过计算两个并行轴向注意力之间的双向交叉注意力,以更好地捕获全局信息。此外,为了处理病变区域或器官在个体大小和形状上的显著变化,我们还在每个轴向注意力路径中使用不同大小的条形卷积核进行多次卷积,以提高编码空间信息的效率。我们将提出的MCA构建在MSCAN主
文章目录概要IIntroduction小结概要提出的架构,双注意力U-Net与特征融合(DAU-FINet),解决了语义分割中的挑战,特别是在多类不平衡数据集上,这些数据集具有有限的样本。DAU-FINet整合了多尺度空间-通道注意力机制和特征注入,以提高目标定位的准确性。核心采用了一个多尺度深度可分离卷积块,捕获跨尺度的局部模式。这个块由一个空间-通道挤压与激励(scSE)注意力单元补充,该单元模拟特征图中通道和空间区域之间的依赖关系。此外,附加注意力门通过连接编码器-解码器路径来优化分割。为了增强模型,使用Gabor滤波器进行纹理分析,使用Sobel和Canny滤波器进行边缘检测,并由语义
Cross-DroneTransformerNetworkforRobustSingleObjectTracking论文阅读笔记Abstract无人机在各种应用中得到了广泛使用,例如航拍和军事安全,这得益于它们与固定摄像机相比的高机动性和广阔视野。多无人机追踪系统可以通过从不同视角收集互补的视频片段,为目标提供丰富的信息,特别是当目标在某些视角中被遮挡或消失时。然而,在多无人机视觉追踪中处理跨无人机信息交互和多无人机信息融合是具有挑战性的。最近,Transformer在自动建模视觉追踪的模板和搜索区域之间的相关性方面显示出显著的优势。为了利用其在多无人机追踪中的潜力,我们提出了一种新型的跨无人
论文链接:https://arxiv.org/pdf/2309.08152.pdfhttps://arxiv.org/pdf/2206.01381.pdfhttps://arxiv.org/pdf/2309.08152.pdf代码链接:https://github.com/DiffPrompter/diff-prompter目前没有完整代码放出。 恶劣天气下的目标检测主要有以下三种解决方案:1)使用预处理(pre-processing),例如imagedesnowing/deraining/dehazing,尽管已经有大量的方法去完成这个工作,但是会丢失图像细节。2)使用双分支网
医疗图像分割任务中,捕获多尺度信息、构建长期依赖对分割结果有非常大的影响。该论文提出了 Multi-scaleCross-axisAttention(MCA)模块,融合了多尺度特征,并使用Attention提取全局上下文信息。论文地址:MCANet:MedicalImageSegmentationwithMulti-ScaleCross-AxisAttention代码地址:https://github.com/haoshao-nku/medical_seg一、MCA(Multi-scaleCross-axisAttention)MCA的结构如下,将E2/3/4通过concat连接起来(