草庐IT

TensorRT-LLM

全部标签

什么是让ChatGPT爆火的大语言模型(LLM)

什么是让ChatGPT爆火的大语言模型(LLM)更多精彩内容:https://www.nvidia.cn/gtc-global/?ncid=ref-dev-876561文章目录什么是让ChatGPT爆火的大语言模型(LLM)大型语言模型有什么用?大型语言模型如何工作?大型语言模型的热门应用在哪里可以找到大型语言模型大型语言模型的挑战AI应用程序正在总结文章、撰写故事和进行长时间对话——而大型语言模型正在承担繁重的工作。大型语言模型或LLM是一种深度学习算法,可以根据从海量数据集中获得的知识来识别、总结、翻译、预测和生成文本和其他内容。大型语言模型是Transformer模型最成功的应用之一。它

【LLM系列之底座模型对比】LLaMA、Palm、GLM、BLOOM、GPT模型结构对比

LLama[GPT3]使用RMSNorm(即RootMeansquareLayerNormalization)对输入数据进行标准化,RMSNorm可以参考论文:Rootmeansquarelayernormalization。[PaLM]使用激活函数SwiGLU,该函数可以参考PALM论文:Gluvariantsimprovetransformer。[GPTNeo]使用RotaryEmbeddings进行位置编码,该编码可以参考论文Roformer:Enhancedtransformerwithrotarypositionembedding。使用了AdamW优化器,并使用cosinelearn

LLM:LLaMA模型和微调的Alpaca模型

待写LLaMA模型论文原文:https://arxiv.org/abs/2302.13971v1预训练数据模型架构模型就是用的transformer的decoder,所以在结构上它与GPT是非常类似的,只是有一些细节需要注意一下。1、RMSPre-Norm2、SwiGLU激活函数3、RoPE旋转位置编码Alpaca模型[StanfordCRFM] 中文聊天aipacaGitHub-ymcui/Chinese-LLaMA-Alpaca内容导引

解密Prompt系列8. 无需训练让LLM支持超长输入:知识库 & unlimiformer & PCW & NBCE

这一章我们聊聊有哪些方案可以不用微调直接让大模型支持超长文本输入,注意这里主要针对无限输入场景。之前在BERT系列中我们就介绍过稀疏注意力和片段递归的一些长文本建模方案长文本建模BigBird&Longformer&Reformer&Performer,不过以上方案无一例外都需要在训练阶段引入。针对当前大模型微调成本高的问题,更多研究放到如何在模型外部支持长文本输入。先讨论下为啥当前的大模型会在推理时存在输入长度的限制,主要有以下几点原因Attention矩阵计算复杂度:在不引入稀疏注意力的条件下,Attention矩阵的内存和计算复杂度是\(O(序列长度^2)\),文本长度的上升会带来显存的

LLM:大模型的正则化

主流大模型使用的Normalization主要有三类,分别是LayerNorm,RMSNorm,以及DeepNorm。 小模型的正则化参考:l1l2正则和dropout正则化[https://youzipi.blog.csdn.net/article/details/75307522]LN和BN归一化[深度学习:批归一化BatchNormalization] Post-Norm和Pre-Norm根据Normalization在结构中的位置,也可分为Post-Norm和Pre-Norm。一般认为,Post-Norm在残差之后做归一化,对参数正则化的效果更强,进而模型的收敛性也会更好;而Pre-N

LLM:预训练语言模型的评估

评估预训练语言模型的优劣通常有以下几种方法:困惑度(Perplexity):困惑度是一种常用的评估语言模型的方法,它可以用来衡量模型对新数据的预测能力。困惑度越低,表示模型对数据的拟合效果越好。语言模型下游任务:语言模型下游任务是指在特定任务上使用预训练语言模型进行微调,以便更好地适应该任务。通常,如果预训练语言模型在下游任务上表现良好,则说明该模型具有较好的泛化能力和语言理解能力。人类评估:人类评估是指通过人工判断预训练语言模型生成的文本是否符合语法、逻辑和语义等方面的要求。虽然这种方法比较费时费力,但是它可以提供更加客观的评估结果。对抗样本攻击:对抗样本攻击是指通过对预训练语言模型输入进行

CREATOR制造、使用工具,实现LLM「自我进化」

自古以来,工具的使用被视为区分人与其他物种的一大区别,也被视为是智能的一种根本体现。而当下,人工智能已不再局限于对工具的简单使用,它们已然能够根据问题创造性地建立自己的工具来寻求解决方案。在思维上,这代表着当下大模型已经能够掌握更高层次的抽象思维认知,并将其与具象思维划分,共同解决问题;而在能力上,工具创造的出现也意味着模型已经能够从“学习”中蜕变,去运用已知“创造”未来的无限可能。论文链接:https://arxiv.org/pdf/2305.14318.pdf研究背景近年来,大规模语言模型(LargeLanguageModels)取得了显著的研究进展,包括GPT-3、Codex、PaLM、

一篇学会本地知识库对LLM的性能优化

昨天一个跑了220个小时的微调训练完成了,主要任务是想在CHATGLM-6B上微调出一个能够较为精确的诊断数据库错误信息的对话模型来。不过这个等了将近十天的训练最后的结果令人失望,比起我之前做的一个样本覆盖更小的训练来,差的还是挺大的。这样的结果还是有点令人失望的,这个模型基本上是没有实用价值的。看样子需要重新调整参数与训练集,再做一次训练。大语言模型的训练是一场军备竞赛,没有好的装备是玩不起来的。看样子我们也必须要升级一下实验室的装备了,否则没有几个十天可以浪费。从最近的几次失败的微调训练来看,微调训练这条路也并不容易完成。不同的任务目标混杂在一起跑训练,可能不同的任务目标需要的训练参数不同

探究大语言模型(LLM):让ChatGPT火爆的背后

   随着人工智能技术的快速发展,大语言模型(LargeLanguageModel,LLM)也逐渐成为研究热点之一。LLM是一种能够生成自然语言文本的人工智能模型,它的主要作用是自动生成高质量的文章、对话和翻译等自然语言内容。其中,OpenAI公司的ChatGPT(GenerativePre-trainedTransformer)模型就是一种火爆的LLM,被广泛应用于自然语言生成、智能客服、语音识别等领域。那么,ChatGPT之所以能够如此火爆,到底是因为它具备了哪些特点和优势呢?目录一、Transformer结构二、无监督学习三、多层次、多粒度的语言模型四、基于大规模语料的预训练五、应用场景

探究大语言模型(LLM):让ChatGPT火爆的背后

   随着人工智能技术的快速发展,大语言模型(LargeLanguageModel,LLM)也逐渐成为研究热点之一。LLM是一种能够生成自然语言文本的人工智能模型,它的主要作用是自动生成高质量的文章、对话和翻译等自然语言内容。其中,OpenAI公司的ChatGPT(GenerativePre-trainedTransformer)模型就是一种火爆的LLM,被广泛应用于自然语言生成、智能客服、语音识别等领域。那么,ChatGPT之所以能够如此火爆,到底是因为它具备了哪些特点和优势呢?目录一、Transformer结构二、无监督学习三、多层次、多粒度的语言模型四、基于大规模语料的预训练五、应用场景