草庐IT

Attention-Based

全部标签

【论文阅读笔记】Branch Aggregation Attention Network for Robotic Surgical Instrument Segmentation

1.论文介绍2023年发表在IEEETMI上的文章,名字为《BranchAggregationAttentionNetworkforRoboticSurgicalInstrumentSegmentation》(用于机器人手术器械分割的分支聚合注意力网络),link,code在code(其实还没上传)。2.摘要手术器械分割对机器人辅助手术具有重要意义,但手术过程中反射、水雾、运动模糊等噪声以及手术器械的不同形态会大大增加精确分割的难度。提出了一种新的基于分支聚合注意力网络(BAANet)的特征定位方法,该方法采用轻量级编码器,并设计了分支平衡聚合模块(BBA)和块注意力融合模块(BAF),实现了

【论文笔记】FastPillars: A Deployment-friendly Pillar-based 3D Detector

原文链接:https://arxiv.org/abs/2302.023671.引言目前基于激光雷达的主流方法分为基于点云的方法和基于体素的方法。前者能保留最多的几何信息,但点查询和遍历耗时;后者使用3D/2D卷积处理体素化点云,但用于提高效率的3D稀疏卷积在部署时会遇到困难。PointPillars作为设备部署的流行方法,使用对部署有利的2D卷积。但其使用最大池化提取每个柱体内点的特征,无法获取细粒度特征,影响最终性能(特别是对于小物体)。此外,其颈部网络FPN直接融合多尺度特征,缺少充分的特征交互。尽管PillarNet提高了PointPillars的性能,但其使用了部署困难的稀疏卷积。本文

What the DAAM: Interpreting Stable Diffusion Using Cross Attention

WhattheDAAM:InterpretingStableDiffusionUsingCrossAttention(Paperreading)RaphaelTang,ComcastAppliedAI,ACL2023bestpaper,Code,Paper1.前言大规模扩散神经网络是文本到图像生成中的一个重要里程碑,但人们对其了解甚少,缺乏可解释性分析。在本文中,我们对最近开源的模型StableDiffusion进行了文本-图像归因分析。为了生成像素级归因图,我们在去噪子网络中提升并聚合交叉注意词-像素得分,将我们的方法命名为DAAM。我们通过测试其对名词的语义分割能力以及对所有词性的广义归因

加速attention计算的工业标准:flash attention 1和2算法的原理及实现

transformers目前大火,但是对于长序列来说,计算很慢,而且很耗费显存。对于transformer中的selfattention计算来说,在时间复杂度上,对于每个位置,模型需要计算它与所有其他位置的相关性,这样的计算次数会随着序列长度的增加而呈二次增长。在空间复杂度上,selfattention需要存储一个矩阵来保存所有位置的相关性分数,这个矩阵的大小也会随着序列长度的增加而呈二次增长。因此,对于非常长的序列,这种二次复杂度会导致计算和内存消耗急剧增加,使得模型在处理这样的输入时会变得相对缓慢且需要大量内存。这也是为什么对于超长序列,可能需要采取一些策略,如切分成短序列进行处理,或者使

论文阅读——CRNet: Channel-Enhanced Remodeling-Based Network for Salient Object Detection in Optical

目录为什么要看这篇基本信息标题目前存在的问题改进网络结构损失函数训练测试我的总结为什么要看这篇这篇是老师发的,主要是用来解决遥感显著性检测的边缘问题基本信息期刊IEEETRANSACTIONSONGEOSCIENCEANDREMOTESENSING年份2023论文地址https://ieeexplore.ieee.org/abstract/document/10217013代码地址https://github.com/hilitteq/CRNet.git标题CRNet:一种基于网格增强重构的光学遥感图像显著目标检测网络目前存在的问题除了它们的尺寸差异之外,这些目标由于拍摄距离而具有不同的目标尺

论文笔记:Bottom-Up and Top-Down Attention for Image Captioningand Visual Question Answering

主要学习该方法在VQA中的用法。摘要自顶向下和自底向上结合的注意力机制,使注意力能够在物体和其他显著图像区域的水平上进行计算。自底向上的机制(基于FasterR-CNN)提出图像区域,每个区域都有一个相关的特征向量,而自顶向下的机制确定特征权重。1、介绍注意力机制上图是:左边:注意力模型在CNN特征上运行,这些特征对应于大小相等的图像区域的统一网格。右边:模型在物体和其他显著图像区域的水平上计算注意力。将非视觉或特定任务环境驱动的注意力机制称为“自顶向下”,将纯视觉前馈注意力机制称为“自底向上”。自底向上的机制提出了一组显著图像区域,每个区域由一个汇集的卷积特征向量表示(FasterR-CNN

论文阅读[2019ICASSP]Deep Reinforcement Learning-based Rate Adaptation for Adaptive 360 Video Streaming

1标题、来源、作者信息DeepReinforcementLearning-basedRateAdaptationforAdaptive360DegreeVideoStreamingPublishedin:ICASSP2019-2019IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP)AllAuthors:NuowenKan,JunniZou,KexinTang,ChenglinLi,NingLiu,HongkaiXiong∗SchoolofElectronicInformation&Electrica

【论文阅读】Multi-AUV Collaborative Data Collection Algorithm Based on Q-Learning in Underwater Acoustic S

文章目录论文基本信息摘要1.引言2.相关工作A.基于聚类算法的数据采集算法B.基于AUV轨迹规划的数据采集算法3.网络和通信模型A.网络模型B.问题描述C.通信模式4.THEQL-DGAALGORITHMA.OverviewoftheQL-DGAB.NodeClusteringPhaseC.AUVTaskAllocationD.AUVPathPlanning5.仿真和性能分析A.仿真参数B.结果与分析6.总结补充论文基本信息《Multi-AUVCollaborativeDataCollectionAlgorithmBasedonQ-LearninginUnderwaterAcousticSen

FcaNet: Frequency Channel Attention Networks | 论文笔记

论文地址:[2012.11879]FcaNet:FrequencyChannelAttentionNetworks(arxiv.org)代码地址:cfzd/FcaNet:FcaNet:FrequencyChannelAttentionNetworks(github.com)1、研究背景1)通常来说,由于有限的计算资源开销,通道注意力机制需要对每个通道的标量进行计算来获得权重函数,而全局平均池化(GAP)操作由于其易用性和高效性无疑是最佳的选择。但GAP操作,即“平均”操作会极大的抑制特征的这种多样性,均值信息是否不足以代表不同的特征通道。2)目前已提出一些对GAP的改进方法,例如globalm

论文解读:ChangeFormer | A TRANSFORMER-BASED SIAMESE NETWORK FOR CHANGE DETECTION

论文地址:https://arxiv.org/pdf/2201.01293.pdf项目代码:https://github.com/wgcban/ChangeFormer发表时间:2022本文提出了一种基于transformer的siamese网络架构(ChangeFormer),用于一对共配准遥感图像的变化检测(CD)。与最近基于完全卷积网络(ConvNets)的CD框架不同,该方法将分层结构的transformer编码器与多层感知(MLP)解码器统一在siamese网络体系结构中,以有效地呈现精确CD所需的多尺度远程细节。在两个CD数据集上的实验表明,所提出的端到端可训练的结构比以前的结构具