Transformer-M_草庐IT

2023年最具影响力的 10 篇AI论文（Llama2、SAM、LLM、 Pythia、QLoRA、BloombergGPT、DPO、Mistral 7B、Orca 2、transformer）

2023一年又过去，这一年，AI圈子以一种“狂飙突进”的速度飞速发展，哪怕在这个领域深耕多年的学者们也开始感叹“从没有见过哪个领域在哪一年如同AI领域在2023年这样如此飞速的发展与不断的进化”，毫无疑问，这一年AI，尤其是大模型的爆发将会深刻影响未来我们生活的方方面面。抱着年终总结，也是对过去的2023这一里程碑式的一年回顾与展望的态度，来自AheadAI的SebastianRaschka博士为我们带来了2023年最值得大家关注，也是最有影响力的十篇AI论文，这里我们就和大家一起，用这十篇工作再次为2023年写下一段注脚（十篇论文不分先后）一、Pythia—大模型该如何训练？来自

【论文笔记】Learned Fusion: 3D Object Detection using Calibration-Free Transformer Feature Fusion

原文链接：https://arxiv.org/abs/2312.090821.引言目前的3D目标检测一来传感器的校准信息。这种情况下，校准信息需要及其精确，但在产品尺度上，获取高质量校准信息是很困难的（需要逐传感器校准，且运行过程中可能会变化）。本文基于Transformer，提出无需校准信息的传感器融合方法。3.方法从基于Transformer的方法中直接移除校准信息会导致训练困难。3.1TransFuseDet本文的模型包含融合编码器、上采样和任务头。使用两个ResNet分别编码激光雷达和相机的特征，然后在不同特征尺度上使用Transformer融合，类似TransFuser。但不同的是，

AAAI 2024｜ETH轻量化Transformer最新研究，浅层MLP完全替换注意力模块提升性能

论文题目：RethinkingAttention:ExploringShallowFeed-ForwardNeuralNetworksasanAlternativetoAttentionLayersinTransformers论文链接： https://arxiv.org/abs/2311.10642代码仓库： GitHub-vulus98/Rethinking-attention:Myimplementationoftheoriginaltransformermodel(Vaswanietal.).I'veadditionallyincludedtheplayground.pyfilefor

论文阅读——Slide-Transformer（cvpr2023）

Slide-Transformer:HierarchicalVisionTransformerwithLocalSelf-Attention一、分析1、改进transformer的几个思路：（1）将全局感受野控制在较小区域，如：PVT，DAT，使用稀疏全局注意力来从特征图选择稀疏的键对值，并且在所有查询中共享它们。（2）就是SwinTransformer这条窗口注意力范式，输入被分为特殊设计的窗口，特征在窗口中提取并融合。非常有效，但是有一些局限性，一方面，稀疏全局注意力在捕捉局部特征方面往往较差，并且容易受到关键和值位置的影响，在这些位置，其他区域中的信息特征可能会被丢弃。另一方面，窗口注意

论文阅读笔记AI篇 —— Transformer模型理论+实战 (二)

论文阅读笔记AI篇——Transformer模型理论+实战（二）第二遍阅读（通读）2.1Background2.2ModelArchitecture2.2.1EncoderandDecoderStacks2.2.2ScaledDot-ProductAttention2.2.3Multi-HeadAttention2.3WhySelf-Attention2.4Training2.5Results2.6Conclusion资源地址Attentionisallyouneed.pdf(0积分)-CSDN第二遍阅读（通读）图1——Transformer结构图图2——Attention结构图2.1Back

WidthFormer：实时自动驾驶！助力基于Transformer的BEV方案量产

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&行业理解基于BEV的transformer方案今年量产的主要方案，transformer结构和CNN相比，特征提取能力更强，但需要较多的算力，这也是为什么许多车上都是1~2颗orin芯片支持。所以如何轻量化基于Transformer的BEV方案，成为各大自动驾驶公司后面优化的重点，地平线的最新工作，将Transformer+BVE轻量化，保持了性能领先和速度领先。WidthFormer有哪些优势？WidthFormer是一种轻量级且易于部署的BEV变换方法，它使用单层transformer解码器来计算BEV表示。除此之外，还提出了参考

ConvNet与Transformer谁更强？Meta评测4个领先视觉模型，LeCun转赞

如何根据特定需求选择视觉模型？ConvNet/ViT、supervised/CLIP模型，在ImageNet之外的指标上如何相互比较？来自MABZUAI和Meta的研究人员发表的最新研究，在「非标准」指标上全面比较了常见的视觉模型。论文地址：https://arxiv.org/pdf/2311.09215.pdf就连LeCun称赞道，非常酷的研究，比较了相似大小的ConvNext和VIT架构，无论是在监督模式下训练，还是使用CLIP方法进行训练，并在各种属性上进行了比较。超越ImageNet准确性计算机视觉模型格局，变得越来越多样复杂。从早期的ConvNets到VisionTransforme

经典文献阅读之--VoxFormer(基于Transformer的3D语义场景补全)

0.简介之前了解了很多BEV的相关操作，但是基本上要么是激光和视觉结合，要么是纯视觉完成的2D激光投影这两种，而那种3DOccupancy方法可以利用栅格的方法完成纯视觉占据栅格的生成。《VoxFormer:SparseVoxelTransformerforCamera-based3DSemanticSceneCompletion》就是这种方法对于被遮挡的物体和场景，人们可以很容易地联想出其完整的3D几何结构，这种吸引人的能力对于AI系统来说是一个至关重要的。为了应对这种挑战，语义场景补全（SSC）任务应运而生，以往的SSC通常以3D点云作为输入，或以密集特征投影将2D图像作为输入来得到3D语

论文阅读 Attention is all u need - transformer

文章目录1摘要1.1核心2模型架构2.1概览2.2理解encoder-decoder架构2.2.1对比seq2seq，RNN2.2.2我的理解3.Sublayer3.1多头注意力multi-headself-attention3.1.1缩放点乘注意力ScaledDot-ProductAttention3.1.2QKV3.1.3multi-head3.1.4masked3.2线性层MLP3.3embeddingandsoftmax3.4positionalencoding3.5dropout总结附[李沐b站对该论文理解的一些题目和答案](https://zhuanlan.zhihu.com/p/

《Span-Based Joint Entity and Relation Extraction with Transformer Pre-Training》阅读笔记

代码原文地址预备知识：1.什么是束搜索算法（beam search）?beam search是一种用于许多自然语言处理和语音识别模型的算法，作为最终决策层，用于在给定目标变量(如最大概率或下一个输出字符)的情况下选择最佳输出。 2.什么是条件随机场（ConditionalRandomField，CRF）？CRF是一类统计建模方法，通常应用于模式识别和机器学习，并用于结构化预测。分类器预测单个样本的标签时不考虑“邻近”样本，而CRF可以考虑上下文。 3.ELMo模型是如何工作的?与Glove和Word2Vec不同，ELMo使用包含该单词的完整句子来表示单词的嵌入。因此，ELMo嵌入能够捕获句