草庐IT

Meta-Transformer

全部标签

1000000000!微软改进Transformer一次能记住这么多token了

微软亚研院最新研究,有点震撼:他们开发了一个Transformer变体,居然将其token拓展到了10亿。图片什么概念?目前最强的GPT-4也才最大支持一次处理32k token,相当于50页文字。而能够只用1分钟看完一本数万字小说的Claude,其token数也不过“才”100k(10万)。一次性扩展到10亿,并且这个数字理论上其实还是无限的,这不就意味着:不久的将来,整个语料库甚至互联网都能视为一个序列?图片若真如此,简直不敢想象。如何做到?大预言模型时代,扩展序列长度已成为一大关键需求。然而,现有的方法要么难以解决计算复杂性,要么搞不定模型表达力,导致长度很受限。在此,作者提出一个Tra

YOLOv5+Swin Transformer

参考:(7条消息)改进YOLOv5系列:3.YOLOv5结合SwinTransformer结构,ICCV2021最佳论文使用ShiftedWindows的分层视觉转换器_芒果汁没有芒果的博客-CSDN博客本科生工科生cv改代码本来做的7,但是7报错一直解决不了,我就试试51、先是第一个报错TypeError:__init__()missing1requiredpositionalargument:'c2'解决:在yolo.py里ifmin{Conv,GhostConv,Bottleneck,GhostBottleneck,SPP,SPPF,DWConv,MixConv2d,Focus,Cros

学习Transformer:自注意力与多头自注意力的原理及实现

前言自从Transformer[3]模型在NLP领域问世后,基于Transformer的深度学习模型性能逐渐在NLP和CV领域(VisionTransformer)取得了令人惊叹的提升。本文的主要目的是介绍经典Transformer模型和VisionTransformer的技术细节及基本原理,以方便读者在CV领域了解和使用VisionTransformer。由于篇幅过长,本文将分为四个部分进行介绍,包括:(1)自注意力与多头自注意力模型的原理与实现。(2)Transformer的整体架构与实现。(3)位置编码(positionalencoding)的原理与实现。(4)Transformer在C

学习Transformer:自注意力与多头自注意力的原理及实现

前言自从Transformer[3]模型在NLP领域问世后,基于Transformer的深度学习模型性能逐渐在NLP和CV领域(VisionTransformer)取得了令人惊叹的提升。本文的主要目的是介绍经典Transformer模型和VisionTransformer的技术细节及基本原理,以方便读者在CV领域了解和使用VisionTransformer。由于篇幅过长,本文将分为四个部分进行介绍,包括:(1)自注意力与多头自注意力模型的原理与实现。(2)Transformer的整体架构与实现。(3)位置编码(positionalencoding)的原理与实现。(4)Transformer在C

微软新出热乎论文:Transformer扩展到10亿token

当大家不断升级迭代自家大模型的时候,LLM(大语言模型)对上下文窗口的处理能力,也成为一个重要评估指标。比如明星大模型GPT-4支持32ktoken,相当于50页的文字;OpenAI前成员创立的Anthropic更是将Claude处理token能力提升到100k,约75000个单词,大概相当于一键总结《哈利波特》第一部。在微软最新的一项研究中,他们这次直接将Transformer扩展到10亿token。这为建模非常长的序列开辟了新的可能性,例如将整个语料库甚至整个互联网视为一个序列。作为比较,普通人可以在5小时左右的时间里阅读100,000个token,并可能需要更长的时间来消化、记忆和分析这

Meta 正式推出 Twitter 替代品“Threads”:全场无广告,可通过关联 Instagram 账户快速导入用户信息

7月6日消息,由于太受期待,Meta现已提前推出了对标twitter的社交应用——Threads。这款应用目前没有看到任何广告,而且还可以让用户关联Instagram 并保留其粉丝和用户名。截至IT之家发稿,Threads已经在苹果 AppStore 中上升到了“社交”类第27名。随着更多用户接触到这款应用,预计后面下载量还会进一步提高。从 AppStore的信息来看,这款应用需要设备运行iOS14.0或更高版本才能使用,年龄分级为“12+”,而且暂时没有任何内购选项。Threads被描述为“Instagram的基于文本的对话应用”,用户可以使用该应用发布“Threads”,而其他用户也可以回

论文阅读 (79):TransMIL: Transformer based Correlated Multiple Instance Learning for Whole Slide Image

文章目录1概述1.1题目1.2动机1.3代码1.4附件1.5引用2方法2.1相关多示例2.2Transformer应用到相关MIL2.3TransMIL用于弱监督WSI分类2.3.1使用TPT对长实例序列建模2.3.2PPEG位置编码3实验及结果3.1数据集3.2实验设置和度量指标3.3实现细节3.4基准线3.5结果1概述1.1题目2021:用于WSI分类的Transformer相关多示例(TransMIL:Transformerbasedcorrelatedmultipleinstancelearningforwholeslideimageclassification)1.2动机WSI–MI

AIGC技术研究与应用 ---- 下一代人工智能:新范式!新生产力!(2.2-大模型发展历程 之 Transformer 与 GPT)

文章大纲Transformer:自注意力机制与并行计算取代RNN解码预训练语言模型(Decoder-onlyPre-trainedModels)GPT-1GPT-2GPT-3Transformer的综合应用-视觉Transformer大模型的演技历史HarnessingthePowerofLLMsinPractice:ASurveyonChatGPTandBeyondOntheOpportunitiesandRiskofFoundationModelsAHistoryofGenerativeAIfromGANtoChatGPTASurveyon

Meta AI曾涵清:子图神经网络可扩展应用与表达力应用

图神经网络作为深度学习的一大活跃领域,受到人工智能学家广泛关注。由于可以将图论和深度学习紧密融合在一起,充分利用图上拓扑信息,图神经网络为解决传统深度学习单纯欧氏空间中分析非欧氏空间的对称性和传递性提供了思路。图神经网络的发展中,主要面临两大阶段性挑战。一方面,由于工业应用中图多具有大规模特点,图上传统k-hop消息传递面临指数增长的挑战,对图神经网络获取图上深层拓扑信息产生障碍。另一方面,传统图神经网络在图同构测试和Weisfeiler-Lehmantest仍有较大提升空间。基于对子图网络应用的深入研究,MetaAIResearchScientist曾涵清博士对上述两个问题分别提出新的思考;