Alpaca-Lora (羊驼-Lora): 轻量级 ChatGPT 的开源实现（对标 Standford Alpaca）

珍妮的选择 2023-04-14 原文

Alpaca-Lora (羊驼-Lora): 轻量级 ChatGPT 的开源实现（对标 Standford Alpaca）

文章目录

Alpaca-Lora (羊驼-Lora): 轻量级 ChatGPT 的开源实现（对标 Standford Alpaca）

总览

本文介绍 Alpaca-Lora (羊驼-Lora)，可以认为是 ChatGPT 轻量级的开源版本，它使用 Lora (Low-rank Adaptation) 技术在 Meta 的 LLaMA 7B 模型上微调，只需要训练很小一部分参数就可以获得媲美 Standford Alpaca 模型的效果；本文重点在它的本地安装方法…

前言（与正文可能无关，可以忽略）

前段时间介绍了 Stanford Alpaca (羊驼)：ChatGPT 学术版开源实现，感觉大家热情高涨，可能 Stanford Alpaca 团队也感受到了这些热情，在线体验地址也暂时关闭了。我看 Stanford Alpaca 的训练代码已经开源，如果要训练的话，需要向 Meta 提交 LLaMA 的申请问卷，目前我已提交，在等 Meta 的邮件回复。

等待过程中惊奇的发现 Alpaca-LoRA: Low-Rank LLaMA Instruct-Tuning 项目，它居然可以直接访问 LLaMA-7B 模型！经过一番折腾，终于在本地成功部署，效果如下：

左边红框我要它输出一段 Python 代码，右边红框中它实现了一个加法函数，效果不错！可惜我 GPU 显存太小，只有 8G，模型参数量化后虽然可以成功加载，但是做预估时会报奇怪的错误，所以我最后一刻决定用 CPU 运行。。。先把问题解决再考虑后续优化。

本文主要介绍一下本地安装的方法。文中列出的资源可以在 “各类资源” 这一节中找到。

LoRA 简要介绍

关于 Alpaca-Lora 和 Stanford Alpaca 模型的区别，我先入为主的印象是，Stanford Alpaca 是在 LLaMA 整个模型上微调，而 Alpaca-Lora 则是利用 Lora 技术（LoRA: Low-Rank Adaptation of Large Language Models），在冻结原模型 LLaMA 参数的情况下，通过往模型中加入额外的网络层，并只训练这些新增的网络层参数。由于这些新增参数数量较少，这样不仅 finetune 的成本显著下降，还能获得和全模型微调类似的效果。想想最近 Stable Diffusion 文生图扩散模型（Stable Diffusion 原理介绍与源码分析（一、总览））的效果，在 LoRA 的加持下，可以生成很高质量的图片。

LoRA 的结构如下：

蓝色模块是原模型，而橙色模块则是新增网络层，通过控制参数 r 的大小，可以有效减少新增网络层的参数。

各类资源

Alpaca-Lora 地址：https://github.com/tloen/alpaca-lora
Standford Alpaca 地址：https://github.com/tatsu-lab/stanford_alpaca
Lora 的论文地址：https://arxiv.org/abs/2106.09685
LLaMA-7B-HF 模型地址：https://huggingface.co/decapoda-research/llama-7b-hf
Lora 参数地址：https://huggingface.co/tloen/alpaca-lora-7b
如何优雅的下载huggingface-transformers模型: https://zhuanlan.zhihu.com/p/475260268

Alpaca-Lora Colab 体验

如果想在线快速体验，可以使用 Colab，打开 Alpaca-Lora 项目 Github 主页，点击如下红框给出的链接即可。

网速极快，体验贼好，免去了本地安装的一切烦恼。。。

本地安装

环境准备

虽然 README 文件中说使用 pip install -r requirements.txt 就 OK 了，但是我还是决定用 conda 创建一个虚拟环境，environment.yaml 文件如下：

name: alpaca
channels:
  - pytorch
  - defaults
dependencies:
  - python=3.8.5
  - pip=20.3
  - cudatoolkit=11.3
  - pytorch=2.0.0
  - numpy=1.19.2
  - pip:
    - datasets
    - loralib 
    - sentencepiece
    - accelerate
    - bitsandbytes
    - gradio
    - appdirs
    - -e git+https://github.com/huggingface/transformers.git@main#egg=transformers
    - -e git+https://github.com/huggingface/peft.git@main#egg=peft

然后使用如下命令激活：（顺便吐槽一句，master 分支如今写成 main 分支，哈哈）

conda env create -f environment.yaml
conda activate alpaca

激活后，可以再执行 pip install -r requirements.txt 进行 double check。

运行 generate.py

正常情况下，如果有超过 8G 的 GPU 显存，并且网络之类的都相当 good 的话，那么直接运行 python generate.py 就能成功。

但这篇文章之所以有存在的必要，就是因为遇到太多不正常的情况😂😂😂

首先是模型参数的下载，包括 LLaMA-7B-HF 大模型（地址：https://huggingface.co/decapoda-research/llama-7b-hf）以及 Lora 参数（地址：https://huggingface.co/tloen/alpaca-lora-7b），下载报 HTTP Requests 之类的错误。

我参考《如何优雅的下载huggingface-transformers模型》(地址：https://zhuanlan.zhihu.com/p/475260268）一文，安装 huggingface_hub 进行模型下载，速度非常快，执行如下命令下载模型：

>>> from huggingface_hub import snapshot_download
>>> snapshot_download(repo_id="decapoda-research/llama-7b-hf")

结果如下：

不过快下载完的时候报错中断，我把上面的命令重新执行一次，就能正常接着下载：

模型下载成功后，终端会输出模型的保存地址，可以使用 stat -Lc "%n %s" * 命令大致看下各文件大小有没有缺斤少两的，和 Hugging Face 上的模型大小简单对比一下：

该命令中, -L 表示对 soft link 进行处理，-c "%n %s" 指定输出格式，其中 %n 表示文件的名字，%s 表示文件大小，我看着文件大小符合预期。

别忘了 LoRA 模型哈: 执行 snapshot_download(repo_id="tloen/alpaca-lora-7b") 下载 Lora 参数。

然后接着运行 generate.py，可是在如下代码报错：

直接注释即可。

解决上述问题后，我使用 8G 的 GPU 运行，仍然会在中途报 ZeroDivisionError: integer division or module by zero：

我是通过去修改 accelerate 这个包的源码避开这个问题的，需要简单读一下 get_max_memory() 函数的实现。最后运行成功界面如下：

不过也注意到显存快到极限了。因此就算避开了上述问题，由于 GPU 显存天然的限制（就像游戏中要你氪金，你偏不氪，那么体验肯定不会好），后面再其他地方仍会报错，我尝试解决无果，最终决定在 CPU 上运行…

再贴一次成功后的画面：

小结

本文介绍了 ChatGPT 轻量级的开源版本 Alpaca-Lora (羊驼-Lora)，它使用 Lora (Low-rank Adaptation) 技术在 Meta 的 LLaMA 7B 模型上微调，只需要训练很小一部分参数就可以获得媲美 Standford Alpaca 模型的效果。此外还较为详细的介绍了其在本地安装的方法。

经此一役，愈发感慨 GPU 的重要性，哪怕多给我 1G，也不至于如此窘迫。为了省出一点显存资源，我把其他能关闭的进程都关闭了，还得去 debug 之类的… 当初想着自己不玩大型游戏，觉得 8G 够用了… 人类对算力的需求是永无止境的。好好加班，攒信仰！

(对了，可以在微信中搜索 “珍妮的算法之路” 或者 “world4458” 关注我的微信公众号, 及时获取最新原创技术文章更新。。。）

有关Alpaca-Lora (羊驼-Lora): 轻量级 ChatGPT 的开源实现（对标 Standford Alpaca）的更多相关文章

ruby - 如何根据特征实现 FactoryGirl 的条件行为 - 2
我有一个用户工厂。我希望默认情况下确认用户。但是鉴于unconfirmed特征，我不希望它们被确认。虽然我有一个基于实现细节而不是抽象的工作实现，但我想知道如何正确地做到这一点。factory:userdoafter(:create)do|user,evaluator|#unwantedimplementationdetailshereunlessFactoryGirl.factories[:user].defined_traits.map(&:name).include?(:unconfirmed)user.confirm!endendtrait:unconfirmeddoenden
亚特兰蒂斯的回声（中文版): chatGPT 的杰作 - 2
英文版英文链接关注公众号在“亚特兰蒂斯的回声”中踏上一段难忘的冒险之旅，深入未知的海洋深处。足智多谋的考古学家AriaSeaborne偶然发现了一件古代神器，揭示了一张通往失落之城亚特兰蒂斯的隐藏地图。在她神秘的导师内森·兰登教授的指导和勇敢的冒险家亚历克斯·默瑟的帮助下，阿丽亚开始了一段危险的旅程，以揭开这座传说中城市的真相。他们的冒险之旅带领他们穿越险恶的大海、神秘的岛屿和充满陷阱和谜语的致命迷宫。随着Aria潜在的魔法能力的觉醒，她被睿智勇敢的QueenNeria的幻象所指引，她让她为即将到来的挑战做好准备。三人组揭开亚特兰蒂斯令人惊叹的隐藏文明，并了解到邪恶的巫师马拉卡勋爵试图利用其古
华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2
华为OD机试题本篇题目：明明的随机数题目输入描述输出描述：示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od，od薪资待遇，od机试题清单华为OD机试真题大全，用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o
基于C#实现简易绘图工具【100010177】 - 2
C#实现简易绘图工具一.引言实验目的:通过制作窗体应用程序(C#画图软件),熟悉基本的窗体设计过程以及控件设计,事件处理等,熟悉使用C#的winform窗体进行绘图的基本步骤,对于面向对象编程有更加深刻的体会.Tutorial任务设计一个具有基本功能的画图软件**·包括简单的新建文件,保存,重新绘图等功能**·实现一些基本图形的绘制,包括铅笔和基本形状等,学习橡皮工具的创建**·设计一个合理舒适的UI界面**注明:你可能需要先了解一些关于winform窗体应用程序绘图的基本知识,以及关于GDI+类和结构的知识二.实验环境Windows系统下的visualstudio2017C#窗体应用程序三.
MIMO-OFDM无线通信技术及MATLAB实现（1）无线信道：传播和衰落 - 2
MIMO技术的优缺点优点通过下面三个增益来总体概括：阵列增益。阵列增益是指由于接收机通过对接收信号的相干合并而活得的平均SNR的提高。在发射机不知道信道信息的情况下，MIMO系统可以获得的阵列增益与接收天线数成正比复用增益。在采用空间复用方案的MIMO系统中，可以获得复用增益，即信道容量成倍增加。信道容量的增加与min(Nt,Nr)成正比分集增益。在采用空间分集方案的MIMO系统中，可以获得分集增益，即可靠性性能的改善。分集增益用独立衰落支路数来描述，即分集指数。在使用了空时编码的MIMO系统中，由于接收天线或发射天线之间的间距较远，可认为它们各自的大尺度衰落是相互独立的，因此分布式MIMO
【Java入门】使用Java实现文件夹的遍历 - 2
遍历文件夹我们通常是使用递归进行操作，这种方式比较简单，也比较容易理解。本文为大家介绍另一种不使用递归的方式，由于没有使用递归，只用到了循环和集合，所以效率更高一些！一、使用递归遍历文件夹整体思路1、使用File封装初始目录，2、打印这个目录3、获取这个目录下所有的子文件和子目录的数组。4、遍历这个数组，取出每个File对象4-1、如果File是否是一个文件，打印4-2、否则就是一个目录，递归调用代码实现publicclassSearchFile{publicstaticvoidmain(String[]args){//初始目录Filedir=newFile("d:/Dev");Datebeg
ruby - Arrays Sets 和 SortedSets 在 Ruby 中是如何实现的 - 2
通常，数组被实现为内存块，集合被实现为HashMap，有序集合被实现为跳跃列表。在Ruby中也是如此吗？我正在尝试从性能和内存占用方面评估Ruby中不同容器的使用情况最佳答案数组是Ruby核心库的一部分。每个Ruby实现都有自己的数组实现。Ruby语言规范只规定了Ruby数组的行为，并没有规定任何特定的实现策略。它甚至没有指定任何会强制或至少建议特定实现策略的性能约束。然而，大多数Rubyist对数组的性能特征有一些期望，这会迫使不符合它们的实现变得默默无闻，因为实际上没有人会使用它:插入、前置或追加以及删除元素的最坏情况步骤复
ruby - "public/protected/private"方法是如何实现的，我该如何模拟它？ - 2
在ruby中，你可以这样做:classThingpublicdeff1puts"f1"endprivatedeff2puts"f2"endpublicdeff3puts"f3"endprivatedeff4puts"f4"endend现在f1和f3是公共(public)的，f2和f4是私有(private)的。内部发生了什么，允许您调用一个类方法，然后更改方法定义？我怎样才能实现相同的功能(表面上是创建我自己的java之类的注释)例如...classThingfundeff1puts"hey"endnotfundeff2puts"hey"endendfun和notfun将更改以下函数定
ruby - 实现k最近邻需要哪些数据？ - 2
我目前有一个reddit克隆类型的网站。我正在尝试根据我的用户之前喜欢的帖子推荐帖子。看起来K最近邻或k均值是执行此操作的最佳方法。我似乎无法理解如何实际实现它。我看过一些数学公式(例如k表示维基百科页面)，但它们对我来说并没有真正意义。有人可以推荐一些伪代码，或者可以查看的地方，以便我更好地了解如何执行此操作吗？最佳答案 K最近邻(又名KNN)是一种分类算法。基本上，您采用包含N个项目的训练组并对它们进行分类。如何对它们进行分类完全取决于您的数据，以及您认为该数据的重要分类特征是什么。在您的示例中，这可能是帖子类别、谁发布了该项
ruby-on-rails - 使用 Ruby 正确处理 Stripe 错误和异常以实现一次性收费 - 2
我查看了Stripedocumentationonerrors，但我仍然无法正确处理/重定向这些错误。基本上无论发生什么，我都希望他们返回到edit操作(通过edit_profile_path)并向他们显示一条消息(无论成功与否)。我在edit操作上有一个表单，它可以POST到update操作。使用有效的信用卡可以正常工作(费用在Stripe仪表板中)。我正在使用Stripe.js。classExtrasController5000,#amountincents:currency=>"usd",:card=>token,:description=>current_user.email)

Alpaca-Lora (羊驼-Lora): 轻量级 ChatGPT 的开源实现（对标 Standford Alpaca）

Alpaca-Lora (羊驼-Lora): 轻量级 ChatGPT 的开源实现（对标 Standford Alpaca）

文章目录

总览

前言（与正文可能无关，可以忽略）

LoRA 简要介绍

各类资源

Alpaca-Lora Colab 体验

本地安装

环境准备

运行 generate.py

小结

有关Alpaca-Lora (羊驼-Lora): 轻量级 ChatGPT 的开源实现（对标 Standford Alpaca）的更多相关文章

随机推荐