单个GPU就能跑！UC伯克利领头，130亿参数「小羊驼」权重公布

新智元 2023-04-14 原文

3月31日，UC伯克利联手CMU、斯坦福、UCSD和MBZUAI，推出了130亿参数的Vicuna，俗称「小羊驼」（骆马），仅需300美元就能实现ChatGPT 90%的性能。

今天，团队正式发布了Vicuna的权重——只需单个GPU就能跑！

项目地址：https://github.com/lm-sys/FastChat/#fine-tuning

130亿参数，90%匹敌ChatGPT

Vicuna是通过在ShareGPT收集的用户共享对话上对LLaMA进行微调训练而来，训练成本近300美元。

研究人员设计了8个问题类别，包括数学、写作、编码，对Vicuna-13B与其他四个模型进行了性能测试。

测试过程使用GPT-4作为评判标准，结果显示Vicuna-13B在超过90%的情况下实现了与ChatGPT和Bard相匹敌的能力。同时，在在超过90%的情况下胜过了其他模型，如LLaMA和斯坦福的Alpaca。

训练

Vicuna-13B的训练流程如下：

首先，研究人员从ChatGPT对话分享网站ShareGPT上，收集了大约70K对话。接下来，研究人员优化了Alpaca提供的训练脚本，使模型能够更好地处理多轮对话和长序列。之后利用PyTorch FSDP在8个A100 GPU上进行了一天的训练。

内存优化：

为了使Vicuna能够理解长上下文，将最大上下文长度从Alpaca的512扩展到2048，这大大增加了GPU内存需求。在此，研究人员通过使用梯度检查点和闪存注意力来解决内存压力。

多轮对话：

通过调整训练损失以考虑多轮对话，并仅在聊天机器人的输出上计算微调损失。

通过Spot实例降低成本：

采用SkyPilot托管的Spot实例来降低成本，将7B模型的训练成本从500美元降低到约140美元，将13B模型的训练成本从约1000美元降低到300美元。

评估

在模型的质量评估方面，研究人员创建了80个不同的问题，并用GPT-4对模型输出进行了评价。

为了比较不同的模型，研究人员将每个模型的输出组合成一个单独的提示，然后让GPT-4评估哪个模型给出的回答更好。

其中，GPT-4在超过90%的问题中更喜欢Vicuna，而不是现有的SOTA开源模型（LLaMA、Alpaca）。

在45%的问题中，GPT-4认为Vicuna的回答和ChatGPT差不多甚至更好。

综合来看，Vicuna在总分上达到ChatGPT的92%。

安装使用

安装

方法一：

# Install FastChat
pip3 install fschat


# Install a specific commit of huggingface/transformers
# Our released weights do not work with commits after this due to some upstream changes in the tokenizer.
pip3 install git+https://github.com/huggingface/transformers@c612628045822f909020f7eb6784c79700813eda

方法二：

1. clone版本库并变更目录到FastChat文件夹

git clone https://github.com/lm-sys/FastChat.git
cd FastChat

2. 安装Package

pip3 install --upgrade pip  # enable PEP 660 support
pip3 install -e .

权重

根据LLaMA模型的许可，权重将以delta的形式发布。只需将其加到原来的LLaMA权重上，就可以获得最终的Vicuna权重。

1. 按照huggingface上的说明，获得原始的LLaMA权重

2. 通过脚本，自动从团队的Hugging Face账户上下载delta权重

python3 -m fastchat.model.apply_delta \
    --base /path/to/llama-13b \
    --target /output/path/to/vicuna-13b \
    --delta lmsys/vicuna-13b-delta-v0

使用

单个GPU

Vicuna-13B需要大约28GB的GPU显存。

python3 -m fastchat.serve.cli --model-name /path/to/vicuna/weights

多个GPU

如果没有足够的显存，则可以使用模型并行来聚合同一台机器上多个GPU的显存。

python3 -m fastchat.serve.cli --model-name /path/to/vicuna/weights --num-gpus 2

仅用CPU

如果想在CPU上运行，则需要大约60GB的内存。

python3 -m fastchat.serve.cli --model-name /path/to/vicuna/weights --device cpu

Web UI

启动控制器

python3 -m fastchat.serve.controller

启动model worker

python3 -m fastchat.serve.model_worker --model-path /path/to/vicuna/weights

当进程完成模型的加载后，会看到「Uvicorn running on ...」。

发送测试消息

python3 -m fastchat.serve.test_message --model-name vicuna-13b

· 启动gradio网络服务器

python3 -m fastchat.serve.gradio_web_server

现在，你就可以打开浏览器和模型聊天了。

微调

数据

Vicuna是通过使用从ShareGPT收集到的大约7万个用户共享的对话与公共API来微调一个LLaMA基础模型而创建的。

为了确保数据质量，团队将HTML转换回markdown，并过滤掉一些不合适或低质量的样本。此外，团队还将冗长的对话分成较小的片段，以符合模型的最大上下文长度。

代码和超参数

团队使用斯坦福大学Alpaca的代码对模型进行微调，并做了一些修改以支持梯度检查点和Flash注意力。此外，团队也使用与斯坦福Alpaca相似的超参数。

用SkyPilot在云服务上进行微调

SkyPilot是由加州大学伯克利分校建立的一个框架，可以在任何与一个云服务（AWS、GCP、Azure、Lambda等）上轻松、经济地运行ML工作负载。

安装说明：https://skypilot.readthedocs.io/en/latest/getting-started/installation.html

# Install skypilot from the master branch
pip install git+https://github.com/skypilot-org/skypilot.git

Vicuna可以在8个拥有80GB内存的A100 GPU上进行训练。下面的命令将自动启动一个满足要求的节点，在上面设置并运行训练作业。

sky launch -c vicuna -s scripts/train-vicuna.yaml --env WANDB_API_KEY

对于Alpaca来说，训练作业会在具有4个A100-80GB GPU的单一节点上启动。

sky launch -c alpaca -s scripts/train-alpaca.yaml --env WANDB_API_KEY

· 使用本地GPU进行微调

Vicuna也可以用以下代码在8个A100 GPU上训练，显存为80GB。

如果要在更少的GPU上训练，则可以减少per_device_train_batch_size，并相应地增加gradient_accumulation_steps，以保持全局批大小不变。要设置环境，可以参见scripts/train-vicuna.yaml中的设置部分。

torchrun --nnodes=1 --nproc_per_node=8 --master_port=<your_random_port> \
    fastchat/train/train_mem.py \
    --model_name_or_path <path-to-llama-model-weight> \
    --data_path <path-to-data> \
    --bf16 True \
    --output_dir ./checkpoints \
    --num_train_epochs 3 \
    --per_device_train_batch_size 4 \
    --per_device_eval_batch_size 4 \
    --gradient_accumulation_steps 1 \
    --evaluation_strategy "no" \
    --save_strategy "steps" \
    --save_steps 1200 \
    --save_total_limit 100 \
    --learning_rate 2e-5 \
    --weight_decay 0. \
    --warmup_ratio 0.03 \
    --lr_scheduler_type "cosine" \
    --logging_steps 1 \
    --fsdp "full_shard auto_wrap" \
    --fsdp_transformer_layer_cls_to_wrap 'LlamaDecoderLayer' \
    --tf32 True \
    --model_max_length 2048 \
    --gradient_checkpointing True \
    --lazy_preprocess True

参考资料：

https://github.com/lm-sys/FastChat/#fine-tuning

有关单个GPU就能跑！UC伯克利领头，130亿参数「小羊驼」权重公布的更多相关文章

ruby-on-rails - 如何在 ruby 中使用两个参数异步运行 exe？ - 2
exe应该在我打开页面时运行。异步进程需要运行。有什么方法可以在ruby中使用两个参数异步运行exe吗？我已经尝试过ruby命令-system()、exec()但它正在等待过程完成。我需要用参数启动exe，无需等待进程完成是否有任何rubygems会支持我的问题？最佳答案您可以使用Process.spawn和Process.wait2:pid=Process.spawn'your.exe','--option'#Later...pid,status=Process.wait2pid您的程序将作为解释器的子进程执行。除
ruby - RSpec - 使用测试替身作为 block 参数 - 2
我有一些Ruby代码，如下所示:Something.createdo|x|x.foo=barend我想编写一个测试，它使用double代替block参数x，这样我就可以调用:x_double.should_receive(:foo).with("whatever").这可能吗？最佳答案 specify'something'dox=doublex.should_receive(:foo=).with("whatever")Something.should_receive(:create).and_yield(x)#callthere
ruby - 如何在 Ruby 中拆分参数字符串 Bash 样式？ - 2
我正在为一个项目制作一个简单的shell，我希望像在Bash中一样解析参数字符串。foobar"helloworld"fooz应该变成:["foo","bar","helloworld","fooz"]等等。到目前为止，我一直在使用CSV::parse_line，将列分隔符设置为""和.compact输出。问题是我现在必须选择是要支持单引号还是双引号。CSV不支持超过一个分隔符。Python有一个名为shlex的模块:>>>shlex.split("Test'helloworld'foo")['Test','helloworld','foo']>>>shlex.split('Test"
ruby - 检查方法参数的类型 - 2
我不确定传递给方法的对象的类型是否正确。我可能会将一个字符串传递给一个只能处理整数的函数。某种运行时保证怎么样？我看不到比以下更好的选择:defsomeFixNumMangler(input)raise"wrongtype:integerrequired"unlessinput.class==FixNumother_stuffend有更好的选择吗？最佳答案使用Kernel#Integer在使用之前转换输入的方法。当无法以任何合理的方式将输入转换为整数时，它将引发ArgumentError。defmy_method(number)
ruby-on-rails - 在默认方法参数中使用 .reverse_merge 或 .merge - 2
两者都可以defsetup(options={})options.reverse_merge:size=>25,:velocity=>10end和defsetup(options={}){:size=>25,:velocity=>10}.merge(options)end在方法的参数中分配默认值。问题是:哪个更好？您更愿意使用哪一个？在性能、代码可读性或其他方面有什么不同吗？编辑:我无意中添加了bang(!)...并不是要询问nobang方法与bang方法之间的区别最佳答案我倾向于使用reverse_merge方法:option
ruby - 定义方法参数的条件 - 2
我有一个只接受一个参数的方法:defmy_method(number)end如果使用number调用方法，我该如何引发错误？？通常，我如何定义方法参数的条件？比如我想在调用的时候报错:my_method(1) 最佳答案您可以添加guard在函数的开头，如果参数无效则引发异常。例如:defmy_method(number)failArgumentError,"Inputshouldbegreaterthanorequalto2"ifnumbereputse.messageend#=>Inputshouldbegreaterthano
ruby - rails 3 redirect_to 将参数传递给命名路由 - 2
我没有找到太多关于如何执行此操作的信息，尽管有很多关于如何使用像这样的redirect_to将参数传递给重定向的建议:action=>'something',:controller=>'something'在我的应用程序中，我在路由文件中有以下内容match'profile'=>'User#show'我的表演Action是这样的defshow@user=User.find(params[:user])@title=@user.first_nameend重定向发生在同一个用户Controller中，就像这样defregister@title="Registration"@user=Use
ruby - 字符串文字中的转义状态作为 `String#tr` 的参数 - 2
对于作为String#tr参数的单引号字符串文字中反斜杠的转义状态，我觉得有些神秘。你能解释一下下面三个例子之间的对比吗？我特别不明白第二个。为了避免复杂化，我在这里使用了'd'，在双引号中转义时不会改变含义("\d"="d")。'\\'.tr('\\','x')#=>"x"'\\'.tr('\\d','x')#=>"\\"'\\'.tr('\\\d','x')#=>"x" 最佳答案在tr中转义tr的第一个参数非常类似于正则表达式中的括号字符分组。您可以在表达式的开头使用^来否定匹配(替换任何不匹配的内容)并使用例如a-f来匹配一
ruby-on-rails - 如何生成传递一些自定义参数的 `link_to` URL？ - 2
我正在使用RubyonRails3.0.9，我想生成一个传递一些自定义参数的link_toURL。也就是说，有一个articles_path(www.my_web_site_name.com/articles)我想生成如下内容:link_to'Samplelinktitle',...#HereIshouldimplementthecode#=>'http://www.my_web_site_name.com/articles?param1=value1¶m2=value2&...我如何编写link_to语句“alàRubyonRailsWay”以实现该目的？如果我想通过传递一些
ruby-on-rails - 在 Controller 中干净地处理多个过滤器(参数) - 2
我有一个名为Post的类，我需要能够适应以下场景:如果用户选择了一个类别，则只显示该类别的帖子如果用户选择了一种类型，则只显示该类型的帖子如果用户选择了一个类别和类型，则只显示该类别中该类型的帖子如果用户没有选择任何内容，则显示所有帖子我想知道我的Controller是否不可避免地会因大量条件语句而显得粗糙...这是我解决此问题的错误方法-有谁知道我如何才能做到这一点？classPostsController 最佳答案您最好遵循“胖模型，瘦Controller”的惯例，这意味着您应该将这种逻辑放在模型本身中。Post类应该能够报告

单个GPU就能跑！UC伯克利领头，130亿参数「小羊驼」权重公布

训练

评估

安装

方法一：

方法二：

权重

微调

有关单个GPU就能跑！UC伯克利领头，130亿参数「小羊驼」权重公布的更多相关文章

随机推荐