草庐IT

LLaMA-META

全部标签

聊聊拉长LLaMA的一些经验

SequenceLength是指LLM能够处理的文本的最大长度,越长,自然越有优势:更强的记忆性。更多轮的历史对话被拼接到对话中,减少出现遗忘现象长文本场景下体验更佳。比如文档问答、小说续写等当今开源LLM中的当红炸子鸡——LLaMA,第一版上下文长度是2048,第二版长度是4096。相比之下ChatGPT、GPT4已经支持到16k,Claude甚至支持到了100k。足以见得将LLaMA拉长是如此的任重而道远。本文将会介绍三种在旋转位置编码(RoPE)基础上扩充上下文的高性价比方案,在文末会介绍我的实践经验。线性插值法Kaiokendev的博客[1]中提到了方法,和Meta的一篇工作[2]不谋

一点就分享系列(理解篇5)Meta 出品 Segment Anything 4月6号版核心极速解读——主打一个”Zero shot“是贡献和辅助,CV依然在!

一点就分享系列(理解篇5)Meta出品SegmentAnything通俗解读——主打一个”Zeroshot“是贡献,CV依然在!文章目录一点就分享系列(理解篇5)Meta出品SegmentAnything通俗解读——主打一个”Zeroshot“是贡献,CV依然在!前言META最近很活跃。先提出了LLAMA去对标GPT3,这几天又来了CV的大模型SAM给我们惊喜,今天来整理分析一波。另外最重要的一定要致敬谷歌,没有transformer就没有现在的大模型,多模态AI领域的这么多研究成果。一、SegmentAnything1.大模型的前置需求——宝贵的大规模数据集2.基础任务的泛化方式3.模型结构

羊驼进化成鲸鱼,Meta把对齐「自动化」,Humpback击败现有全部LLaMa模型

这一年来,以ChatGPT和GPT-4为代表的大语言模型(LLM)发展迅速,紧随其后,Meta开源的LLaMa、Llama2系列模型在AI界也引起的了不小的轰动。但随之而来的是争议不断,有人认为LLM存在一些不可控的风险,给人类生存构成一些潜在威胁。为了应对这些挑战,对LLM对齐的研究变得越来越重要,有研究者提出指令跟随(instructionfollowing),但这种方法需要大量的人工注释。然而,注释如此高质量的指令跟随数据集耗费巨大。本文来自 MetaAI的研究者提出了一种可扩展的方法即指令回译(instructionbacktranslation),该方法通过自动注释相应的指令来构建高

ChatGPT 已经成为过去,在您的笔记本电脑中免费运行 Llama 2(源码含模型)

指示:现在您可以在计算机本地运行ChatGPT和LLaMA-2。Meta刚刚发布了这个拥有700亿参数的模型,比任何其他Open模型都要好,甚至击败了Falcon40B!为此,您需要打开终端,转到项目文件夹,然后gitclonellama.cpp项目$gitclonehttps://github.com/ggerganov/llama.cpp现在进入该文件夹并使用make构建项目:$cdllama.cpp$make然后您需要从Meta网站请求访问该模型,并接受使用它的条款和条件,速度非常快收到接受电子邮件后,安装git-lfs并将llama-2–13b-chat模型从HuggingFace下载

以Llama-2为例,在生成模型中使用自定义StoppingCriteria

以Llama-2为例,在生成模型中使用自定义StoppingCriteria1.前言2.场景介绍3.解决方法4.结语1.前言在之前的文章中,介绍了使用transformers模块创建的模型,其generate方法的详细原理和使用方法,文章链接:以beamsearch为例,详解transformers中generate方法(上)以beamsearch为例,详解transformers中generate方法(下)其中提到了用户参与生成过程的两个关键组件,logits_processor和stopping_criteria,使用这两个类,是用户控制生成过程的主要手段。其中,logits_proces

python - 有人在 Python/其他语言中使用 meta-meta-classes/meta-meta-meta-classes 吗?

我最近发现了python中的元类。基本上,python中的元类是创建类的类。有很多有用的理由可以解释为什么要这样做——例如任何类型的类初始化。在工厂上注册类、复杂的属性验证、改变继承的工作方式等。所有这些不仅可能而且变得简单。但是在python中,元类也是普通类。所以,我开始想知道抽象是否可以有用地提高,在我看来它可以而且:元类对应于或实现模式中的角色(如GOF模式语言)。元-元类是模式本身(如果我们允许它创建表示抽象角色的类的元组,而不仅仅是单个类)元元元类是一个模式工厂,对应于GOF模式分组,例如创造的,结构的,行为的。一个工厂,您可以在其中描述特定类型问题的案例,它会为您提供一组

python - 有人在 Python/其他语言中使用 meta-meta-classes/meta-meta-meta-classes 吗?

我最近发现了python中的元类。基本上,python中的元类是创建类的类。有很多有用的理由可以解释为什么要这样做——例如任何类型的类初始化。在工厂上注册类、复杂的属性验证、改变继承的工作方式等。所有这些不仅可能而且变得简单。但是在python中,元类也是普通类。所以,我开始想知道抽象是否可以有用地提高,在我看来它可以而且:元类对应于或实现模式中的角色(如GOF模式语言)。元-元类是模式本身(如果我们允许它创建表示抽象角色的类的元组,而不仅仅是单个类)元元元类是一个模式工厂,对应于GOF模式分组,例如创造的,结构的,行为的。一个工厂,您可以在其中描述特定类型问题的案例,它会为您提供一组

Meta语音达LLaMA级里程碑!开源MMS模型可识别1100+语言

【新智元导读】Meta的大规模多语言语音(MMS)项目将彻底改变语音技术,使用wav2vec2.0的自监督学习,MMS将语音技术扩展到1100到4000种语言。在语音方面,Meta又达到了另一个LLaMA级的里程碑。今天,Meta推出了一个名为MMS的大规模多语言语音项目,它将彻底改变语音技术。MMS支持1000多种语言,用圣经训练,错误率仅为Whisper数据集的一半。只凭一个模型,Meta就建起了一座巴别塔。并且,Meta选择将所有模型和代码开源,希望为保护世界语种的多样性做出贡献。在此之前的模型可以覆盖大约100种语言,而这次,MMS直接把这个数字增加了10-40倍!具体来说,Meta开

论文阅读 - Few-shot Network Anomaly Detection via Cross-network Meta-learning

论文链接:https://arxiv.org/pdf/2102.11165.pdf 目录摘要:引言问题定义方法GraphDeviationNetworksCross-networkMeta-learning摘要:        网络异常检测旨在找到与绝大多数行为显着不同的网络元素(例如节点、边、子图)。它对从金融、医疗保健到社交网络分析等各种应用产生了深远的影响。        由于难以承受的标签成本,现有方法主要是以无监督的方式开发的。尽管如此,由于缺乏对感兴趣的异常的先验知识,他们识别的异常可能会变成数据噪声或无趣的数据实例。        因此,研究和开发网络异常检测的小样本学习至关重要

在 “小小容器” WasmEdge 里运行小小羊驼 llama 2

 昨天,特斯拉前AI总监、OpenAI联合创始人AndrejKarpathy开源了llama2.c。只用500行纯C语言就能训练和推理llama2模型的框架,没有任何繁杂的python依赖。这个项目一推出就受到大家的追捧,24小时内GitHub收获4000颗星!可是,C编译的原生机器码不能跨平台,不安全,也不可被调度。这些问题使得它的应用场景非常有限。这时,一个大胆的想法油然而生!把llama2.c编译成Wasm在WasmEdge里运行!​图片来自https://github.com/karpathy/llama2.c 这么做的好处是:轻量级:一个Wasm文件只有几十KB大小,相比于Pytho