chatGLM-LLAMA_草庐IT

在树莓派中跑迷你Llama2中文模型

OpenAI的Karpathy利用周末搞了一个迷你Llama2项目llama2.c用500行C语言实现无任何依赖项的推理程序，此项目在github发布以来衍生出了基于各种语言的迷你Llama推理实现llama2.go、llama2.java、llama2.py等等；但该项目原本的模型并不支持中文，最近正好看到一个基于llama2的中文训练模型；想着把它跑在树莓派上速度会怎样；使用Go实现进行模型推理，该在树莓派中的Llama2迷你中文模型，模型大小为15M使用的数据集为TinyStories英文翻译后的数据但仅翻译了TinyStories的部分数据目前为1M，中文词表使用UTF-8

Llama 2 来袭 - 在 Hugging Face 上玩转它

🤗宝子们可以戳阅读原文查看文中所有的外部链接哟！引言今天，Meta发布了Llama2，其包含了一系列最先进的开放大语言模型，我们很高兴能够将其全面集成入HuggingFace，并全力支持其发布。Llama2的社区许可证相当宽松，且可商用。其代码、预训练模型和微调模型均于今天发布了🔥。通过与Meta合作，我们已经顺利地完成了对Llama2的集成，你可以在Hub上找到12个开放模型(3个基础模型以及3个微调模型，每个模型都有2种checkpoint:一个是Meta的原始checkpoint，一个是transformers格式的checkpoint)。以下列出了HuggingFace支持Llama2

【类ChatGPT】本地CPU部署中文羊驼大模型LLaMA和Alpaca

昨天在github上看到一个在本地部署中文大模型的项目，和大家分享一下。先把地址po出来。项目名称：中文LLaMA&Alpaca大语言模型+本地部署(ChineseLLaMA&AlpacaLLMs)项目地址：https://github.com/ymcui/Chinese-LLaMA-Alpaca以下是原github中给出的体验GIF，可以看到这个模型还是具备一定的指令理解和上下文对话能力的。由于模型使用的是LoRA（一种高效模型训练方法），所以整个模型的参数量是比较小的（压缩包大概不到800M），但是需要和原版Facebook的权重进行结合才能使用。其实Facebook开源了，但又没完全开源

研究完llama.cpp，我发现手机跑大模型竟这么简单

最近在开源社区，很多人都在探索大模型的优化方法。有一个叫llama.cpp的项目用原始C++重写了LLaMa的推理代码，效果极好，获得了人们的广泛关注。通过一些优化和量化权重，它能让我们在各种以前无法想象的硬件上本地运行LLaMa模型。其中：在谷歌Pixel5手机上，它能以1token/s的速度运行7B参数模型。在 M2芯片的MacbookPro上，使用7B参数模型的速度约为16token/s我们甚至于可以在4GBRAM的树莓派上运行7B模型，尽管速度只有0.1 token/sGitHub链接：https://github.com/ggerganov/llama.cpp我们知道，除了通用化能力

聊聊拉长LLaMA的一些经验

SequenceLength是指LLM能够处理的文本的最大长度，越长，自然越有优势：更强的记忆性。更多轮的历史对话被拼接到对话中，减少出现遗忘现象长文本场景下体验更佳。比如文档问答、小说续写等当今开源LLM中的当红炸子鸡——LLaMA，第一版上下文长度是2048，第二版长度是4096。相比之下ChatGPT、GPT4已经支持到16k，Claude甚至支持到了100k。足以见得将LLaMA拉长是如此的任重而道远。本文将会介绍三种在旋转位置编码（RoPE）基础上扩充上下文的高性价比方案，在文末会介绍我的实践经验。线性插值法Kaiokendev的博客[1]中提到了方法，和Meta的一篇工作[2]不谋

chatglm2-6b模型在9n-triton中部署并集成至langchain实践

一.前言近期，ChatGLM-6B的第二代版本ChatGLM2-6B已经正式发布，引入了如下新特性：①.基座模型升级，性能更强大，在中文C-Eval榜单中，以51.7分位列第6；②.支持8K-32k的上下文；③.推理性能提升了42%；④.对学术研究完全开放，允许申请商用授权。目前大多数部署方案采用的是fastapi+uvicorn+transformers，这种方式适合快速运行一些demo，在生产环境中使用还是推荐使用专门的深度学习推理服务框架，如Triton。本文将介绍我利用集团9n-triton工具部署ChatGLM2-6B过程中踩过的一些坑，希望可以为有部署需求的同学提供一些帮助。二.硬

羊驼进化成鲸鱼，Meta把对齐「自动化」，Humpback击败现有全部LLaMa模型

这一年来，以ChatGPT和GPT-4为代表的大语言模型（LLM）发展迅速，紧随其后，Meta开源的LLaMa、Llama2系列模型在AI界也引起的了不小的轰动。但随之而来的是争议不断，有人认为LLM存在一些不可控的风险，给人类生存构成一些潜在威胁。为了应对这些挑战，对LLM对齐的研究变得越来越重要，有研究者提出指令跟随（instructionfollowing），但这种方法需要大量的人工注释。然而，注释如此高质量的指令跟随数据集耗费巨大。本文来自 MetaAI的研究者提出了一种可扩展的方法即指令回译（instructionbacktranslation），该方法通过自动注释相应的指令来构建高

【AI实战】ChatGLM2-6B 微调：AttributeError: ‘ChatGLMModel‘ object has no attribute ‘prefix_encoder‘

【AI实战】ChatGLM2-6B微调：AttributeError:'ChatGLMModel'objecthasnoattribute'prefix_encoder'ChatGLM2-6B介绍ChatGLM2微调问题解决方法1.安装transformers版本2.重新下载THUDM/chatglm2-6b中的文件3.重新训练参考ChatGLM2-6B介绍ChatGLM2-6B是开源中英双语对话模型ChatGLM-6B的第二代版本，在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上，ChatGLM2-6B引入了如下新特性：1.更强大的性能：基于ChatGLM初代模型的开发经验，我

Centos/Ubuntu离线部署清华chatGLM（特别详细，十分钟搞定）

引言前段时间，清华公布了中英双语对话模型ChatGLM-6B，具有60亿的参数，初具问答和对话功能。最！最！最重要的是它能够支持私有化部署，大部分实验室的服务器基本上都能跑起来。因为条件特殊，实验室网络不通，那么如何进行离线部署呢？经过一下午的折腾终于搞定了，总结了这么一个部署文档供大家讨论学习。除去下载模型以及依赖包的时间，部署十分钟搞定！！让我们冲~~前提条件CUDAVersion11.0，内存32G或者显卡内存8G+8G机器内存及以上。安装Miniconda1.1获取安装包方法一、把Miniconda安装包、ChatGLM-6B模型、webui项目、项目依赖包都放到网盘里面了，可以直接通

ChatGPT 已经成为过去,在您的笔记本电脑中免费运行 Llama 2(源码含模型)

指示：现在您可以在计算机本地运行ChatGPT和LLaMA-2。Meta刚刚发布了这个拥有700亿参数的模型，比任何其他Open模型都要好，甚至击败了Falcon40B！为此，您需要打开终端，转到项目文件夹，然后gitclonellama.cpp项目$gitclonehttps://github.com/ggerganov/llama.cpp现在进入该文件夹并使用make构建项目：$cdllama.cpp$make然后您需要从Meta网站请求访问该模型，并接受使用它的条款和条件，速度非常快收到接受电子邮件后，安装git-lfs并将llama-2–13b-chat模型从HuggingFace下载