训练中文版chatgpt

QianTu& 2023-11-20 原文

文章目录

1. 斯坦福的模型——小而低廉：Alpaca: A Strong Open-Source Instruction-Following Model

原文链接：https://mp.weixin.qq.com/s/PqKue-D7HTne2gC7UzT4Xg
官网地址：https://crfm.stanford.edu/2023/03/13/alpaca.html
模型入口：https://crfm.stanford.edu/alpaca
github地址：https://github.com/tatsu-lab/stanford_alpaca

为了提高模型性能，来自斯坦福的研究者帮助其完成了指令微调的工作，训练了一个名为 Alpaca（羊驼）的 70 亿参数新模型（基于 LLaMA 7B）。具体来说，他们让 OpenAI 的 text-davinci-003 模型以 self-instruct 方式生成 52K 指令遵循（instruction-following）样本，以此作为 Alpaca 的训练数据。实验结果表明，Alpaca 的很多行为都与 text-davinci-003 类似。也就是说，只有 7B 参数的轻量级模型 Alpaca 性能可媲美 GPT-3.5 这样的超大规模语言模型。

Alpaca是由Meta的LLaMA 7B微调而来的全新模型，仅用了52k数据，性能约等于GPT-3.5。关键是训练成本奇低，不到600美元。在8个80GB A100上训练了3个小时，不到100美元；生成数据使用OpenAI的API，500美元。

但是，Alpaca是不能用于商业用途，只能用于学术研究。具体原因有三：

LLaMA是一个非商业许可的模型，Alpaca是基于该模型生成的；
指令数据是基于OpenAI的text-davinci-003，其使用条款禁止开发与OpenAI竞争的模型；
没有设计足够多的安全措施，所以Alpaca还没有做好广泛使用的准备

除此之外，斯坦福研究人员总结了Alpaca未来研究会有三个方向。

评估：
从HELM（语言模型的整体评估）开始捕捉更多的生成性、遵循指令的场景。
安全：
进一步研究Alpaca的风险，并使用自动红队分组、审计和适应性测试等方法提高其安全性。
理解：
希望能更好地理解模型能力是如何从训练方法中产生的。需要基础模型的什么属性？扩大模型规模时会发生什么？需要指令数据的什么属性？在GPT-3.5上，除了使用自生成指令，还有什么替代方法？

2. Meta 模型：LLaMA：open and efficient foundation language models

论文地址：https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/

2023年2月底，Meta推出了最新的语言模型LLaMA，参数量分别是70亿（7B）、130亿（13B）、330亿（33B）和650亿（65B）。评测结果显示，其13B版本便可以与GPT-3相媲美。

3.ChatGLM

原文链接：https://hub.baai.ac.cn/view/24832

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于 General Language Model (GLM) 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。ChatGLM-6B 使用了和 ChatGPT 相似的技术，针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。

具体来说，ChatGLM-6B具备以下特点：

1、充分的中英双语预训练：ChatGLM-6B在1:1比例的中英语料上训练了1T的token量，兼具双语能力。
2、优化的模型架构和大小：吸取GLM-130B训练经验，修正了二维RoPE位置编码实现，使用传统FFN结构。6B（62亿）的参数大小，也使得研究者和个人开发者自己微调和部署ChatGLM-6B成为可能。
3、较低的部署门槛：FP16 半精度下，ChatGLM-6B 需要至少 13 GB 的显存进行推理，结合模型量化技术，这一需求可以进一步降低到 10GB（INT8）和 6GB（INT4），使得 ChatGLM-6B 可以部署在消费级显卡上。
4、更长的序列长度：相比 GLM-10B（序列长度1024），ChatGLM-6B序列长度达2048，支持更长对话和应用。
5、人类意图对齐训练：使用了监督微调（Supervised Fine-Tuning）、反馈自助（Feedback Bootstrap）、人类反馈强化学习（Reinforcement Learning from Human Feedback）等方式，使模型初具理解人类指令意图的能力。输出格式为markdown，方便展示。

4.斯坦福开源机器人小羊驼Vicuna，130亿参数匹敌90%ChatGPT

原文链接：https://hub.baai.ac.cn/view/25175
论文题目：Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality

根据用GPT-4进行的有趣和非科学的评估。需要进一步严格的评估。

我们介绍了Vicuna-13B，这是一个开源的聊天机器人，通过对从ShareGPT收集的用户共享对话进行微调的LLaMA训练。以GPT-4为评判标准的初步评估显示，Vicuna-13B达到了OpenAI ChatGPT和Google Bard 90%*以上的质量，同时在90%*以上的情况下超过了LLaMA和Stanford Alpaca等其他模型的表现。训练Vicuna-13B的成本约为300美元。训练和服务代码，以及在线演示，都是公开的，可用于非商业用途。

概述

大型语言模型（LLM）的快速发展彻底改变了聊天机器人系统，产生了前所未有的智能水平，如OpenAI的ChatGPT所示。然而，尽管其性能令人印象深刻，但 ChatGPT 的培训和架构细节仍然不清楚，阻碍了该领域的研究和开源创新。受Meta LLaMA和斯坦福Alpaca项目的启发，我们推出了Vicuna-13B，这是一款开源聊天机器人，由增强的数据集和易于使用的可扩展基础架构提供支持。通过根据从 ShareGPT.com 收集的用户共享对话微调LLaMA基础模型，Vicuna-13B与斯坦福Alpaca等其他开源模型相比，表现出了有竞争力的性能。这篇博文提供了对Vicuna-13B性能的初步评估，并描述了其培训和服务基础设施。我们还邀请社区与我们的在线演示互动，以测试此聊天机器人的功能。

图 2 提供了我们工作的概述。首先，我们从 ShareGPT.com 收集了大约 70K 次对话，这是一个用户可以分享他们的 ChatGPT 对话的网站。接下来，我们增强了 Alpaca 提供的训练脚本，以更好地处理多轮对话和长序列。培训是在一天内在 8 个 A100 GPU 上使用 PyTorch FSDP 完成的。为了提供演示，我们实现了一个轻量级的分布式服务系统。我们通过创建一组 80 个不同的问题并使用 GPT-4 来判断模型输出，对模型质量进行了初步评估。为了比较两个不同的模型，我们将每个模型的输出组合到每个问题的单个提示中。然后将提示发送到 GPT-4，后者评估哪个模型提供更好的响应。LLaMA，Alpaca，ChatGPT和Vicuna的详细比较如下表1所示

训练

Vicuna是通过使用公共 API 从 ShareGPT.com 收集的大约 70K 个用户共享对话微调 LLaMA 基础模型来创建的。为了确保数据质量，我们将HTML转换回markdown并过滤掉一些不合适或低质量的样本。此外，我们将冗长的对话划分为适合模型最大上下文长度的较小部分。

我们的训练食谱建立在斯坦福大学的Alpaca之上，并进行了以下改进。

内存优化：为了使 Vicuna 能够理解长上下文，我们将Vicuna的最大上下文长度从 512 扩展到 2048，这大大增加了 GPU 内存需求。我们通过利用梯度检查点和闪光注意力来解决内存压力。
多轮对话：我们调整训练损失以考虑多轮对话，并仅根据聊天机器人的输出计算微调损失。
通过竞价型实例降低成本：40 倍大的数据集和 4 倍的训练序列长度对训练费用提出了相当大的挑战。我们采用 SkyPilot 托管的 Spot 实例，通过利用具有自动恢复功能的更便宜的 Spot 实例来降低成本，以实现抢占和自动区域切换。该解决方案将训练 7B 模型的成本从 500 美元削减到 140 美元左右，将 13B 模型从大约 1 美元削减到 300 美元。
服务

如何评估聊天机器人？

评估人工智能聊天机器人是一项具有挑战性的任务，因为它需要检查语言理解、推理和上下文感知。随着人工智能聊天机器人变得越来越先进，目前的开放基准可能不再足够。例如，斯坦福大学（Alpaca）中使用的评估数据集，自我指导，可以由SOTA聊天机器人有效地回答，这使得人类难以辨别性能的差异。更多的限制包括训练/测试数据污染以及创建新基准的潜在高成本。为了解决这些问题，我们提出了一个基于 GPT-4 的评估框架来自动化聊天机器人性能评估。

首先，我们设计了八个问题类别，如费米问题、角色扮演场景和编码/数学任务，以测试聊天机器人性能的各个方面。通过仔细的快速工程，GPT-4 能够生成基线模型难以解决的各种具有挑战性的问题。我们为每个类别选择十个问题，并从五个聊天机器人中收集答案：LLaMA，Alpaca，ChatGPT，Bard和Vicuna。然后，我们要求 GPT-4 根据有用性、相关性、准确性和细节对其答案的质量进行评分 。我们发现 GPT-4 不仅可以产生相对一致的分数，还可以详细解释为什么给出这样的分数（详细示例链接）。我们还注意到 GPT-4 不太擅长判断编码/数学任务。（我觉得这一部分应该是最有意思的部分，针对快速发展的AI，怎么设计评估？）

图 3 显示了所有基线和Vicuna之间的比较结果。在超过4%的问题中，GPT-90更喜欢Vicuna而不是最先进的开源模型（LLaMA，Alpaca），并且它实现了与专有模型（ChatGPT，Bard）的竞争性能。在 45% 的问题中，GPT-4 将Vicuna的回答评为优于或等于 ChatGPT，Vicuna的总分达到 ChatGPT 的 92%（见表 2）。尽管取得了进步，但这些聊天机器人仍然面临局限性，例如在基本的数学问题上挣扎或编码能力有限。

虽然这个提议的评估框架展示了评估聊天机器人的潜力，但它还不是一种严格或成熟的方法，因为大型语言模型容易产生幻觉。为聊天机器人开发一个全面、标准化的评估系统仍然是一个悬而未决的问题，需要进一步研究。

局限性

我们注意到，与其他大型语言模型类似，Vicuna也有一定的局限性。例如，它不擅长涉及推理或数学的任务，并且在准确识别自己或确保其输出的事实准确性方面可能存在局限性。此外，它尚未经过充分优化以保证安全性或减轻潜在的毒性或偏差。为了解决安全问题，我们使用 OpenAI 审核 API 在我们的在线演示中过滤掉不适当的用户输入。尽管如此，我们预计Vicuna可以作为未来研究的开放起点，以解决这些限制。

中文版训练 xff xff0c xff0 chatgpt 深度学习人工智能

有关训练中文版chatgpt的更多相关文章

亚特兰蒂斯的回声（中文版): chatGPT 的杰作 - 2
英文版英文链接关注公众号在“亚特兰蒂斯的回声”中踏上一段难忘的冒险之旅，深入未知的海洋深处。足智多谋的考古学家AriaSeaborne偶然发现了一件古代神器，揭示了一张通往失落之城亚特兰蒂斯的隐藏地图。在她神秘的导师内森·兰登教授的指导和勇敢的冒险家亚历克斯·默瑟的帮助下，阿丽亚开始了一段危险的旅程，以揭开这座传说中城市的真相。他们的冒险之旅带领他们穿越险恶的大海、神秘的岛屿和充满陷阱和谜语的致命迷宫。随着Aria潜在的魔法能力的觉醒，她被睿智勇敢的QueenNeria的幻象所指引，她让她为即将到来的挑战做好准备。三人组揭开亚特兰蒂斯令人惊叹的隐藏文明，并了解到邪恶的巫师马拉卡勋爵试图利用其古
智能客服 | 浅谈人工智能聊天机器人ChatGPT - 2
2022年底，OpenAI的预训练模型ChatGPT给人工智能领域的爱好者和研究人员留下了深刻的印象和启发，他展现的惊人能力将人工智能的研究和应用热度推向高潮，网上也充斥着和ChatGPT的各种聊天，他可以作诗、写小说、写代码、讨论疫情问题等。下面就是一些他的神回复：人命关天的坑：写歌，留给词作者的机会不多了。。。回答人类怎么样面对人工智能：什么是ChatGPT？借用网上的一段介绍，ChatGPT是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型，一款人工智能技术驱动的自然语言处理工具。它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动
【ChatGPT】ChatGPT 的 N 种用法 - 2
目录ChatGPT简介技术原理应用未来发展ChatGPT的10 种用法ChatGPT简介ChatGPT是一种基于深度学习的大型语言模型，由OpenAI公司开发。技术原理GPT是GenerativePre-trainedTransformer的缩写，意为生成式预训练变压器。它的技术原理是使用了一个基于注意力机制的变压器（Trans
ruby - 在 Ruby 中训练神经网络 - 2
在神经网络方面，我完全是个初学者。我整天都在与ruby-fann和ai4r搏斗，不幸的是我没有任何东西可以展示，所以我想我会来到StackOverflow并询问这里的知识渊博的人。我有一组样本——每天都有一个数据点，但它们不符合我能够找出的任何明确模式(我尝试了几次回归)。不过，我认为看看是否有任何方法可以仅从日期预测future的数据会很好，而且我认为神经网络将是生成希望表达这种关系的函数的好方法.日期是DateTime对象，数据点是十进制数，例如7.68。我一直在将DateTime对象转换为float，然后除以10,000,000,000得到一个介于0和1之间的数字，我一直在将
ruby - 在 Ruby 中为 XOR 训练神经网络 - 2
我正在尝试训练一个前馈网络来使用Ruby库AI4R执行异或运算。然而，当我在训练后评估XOR时。我没有得到正确的输出。有没有人以前使用过这个库并得到它来学习异或运算。我使用了两个输入神经元，一个隐藏层中的三个神经元，一个输出层，正如我看到的预计算XOR前馈神经网络就像这样。require"rubygems"require"ai4r"#Createthenetworkwith:#2inputs#1hiddenlayerwith3neurons#1outputsnet=Ai4r::NeuralNetwork::Backpropagation.new([2,3,1])example=[[0,
「想体验ChatGPT中文聊天？」那快进来，你用不上算我输 - 2
♥️作者：白日参商🤵‍♂️个人主页：白日参商主页♥️坚持分析平时学习到的项目以及学习到的软件开发知识，和大家一起努力呀！！！🎈🎈加油！加油！加油！加油🎈欢迎评论💬点赞👍🏻收藏📂加关注+！「想体验ChatGPT中文聊天？」那快进来，你用不上算我输项目场景：项目条件一、那就开始吧1、安装ChatGPT-Desktop2、OpenAPI设置二、使用实例恭喜你！！！配置成功了！！！API和URL都是博主免费提供给大家的！！！恭喜你！！！配置成功了！！！API和URL都是博主免费提供给大家的！！！🎈🎈加油！加油！加油！加油🎈欢迎评论💬点赞👍🏻收藏📂加关注+！项目场景：近几个月可以说ChatGPT是火得一
对于体育新闻中文文本关键字提取有哪些关键字提取算法及其步骤 - 2
对于体育新闻中文文本的关键字提取，常用的算法包括TF-IDF、TextRank和LDA等。它们的基本步骤如下：1.TF-IDF算法： -将文本进行分词和词性标注处理。-统计每个词在文本中的词频（TF）。-计算每个词在整个语料库中出现的文档频率（DF）和逆文档频率（IDF）。-计算每个词的TF-IDF值，并按照值的大小进行排序，选择排名前几的词作为关键字。2.TextRank算法：-将文本进行分词和词性标注处理。-将分词结果转化成图模型，每个词语为节点，根据词语之间的共现关系建立边。-对图模型进行迭代计算，计算每个节点的PageRank值，表示该节点的重要性。-选择排名前几的节点作为关键字。3.
半个月狂飙1000亿，ChatGPT概念股凭什么？ - 2
ChatGPT掀起了AI股历史上最疯狂的一轮市值狂飙。自春节后至今，ChatGPT概念股开始了暴走模式，短短半月时间，海天瑞声、开普云等ChatGPT概念股市值累计增加了近1400亿。如此的爆炸效应，得益于ChatGPT所展现出商业化落地的巨大潜力。要知道，在此之前，无论是十年AI投入超千亿的百度，还是困在硬件化里的AI四小龙，都在重复着AI商业化难落地的故事。ChatGPT的出现，让AI从生产力的赋能者直接成为一种创造生产力的工具。随着订阅模式的推出，ChatGPT已经成为第一个以AI技术为核心直接变现的消费者应用。本文持有以下核心观点：1、ChatGPT是AI技术迭代的受益者。过去受限技术
未来的趋势————以ChatGPT为标杆的AI对生活的影响是巨大的 - 2
文章目录前言1.AI的发展历程2.我是如何接触到人工智能的概念和产品的3.对于ChatGPT的一点看法4.AI对大学毕业生的职业发展的利与弊5.对于AI的思考和问题前言随着ChatGPT的爆火，生成式AI，大模型的人工智能被越来越多的人注意到，同时他也带来了许多问题。本文将对几方面进行探讨。1.AI的发展历程远古时期在公元前第一个千禧年，中国，印度和希腊哲学家都提出了一些推理的研究理论，比如亚里士多德（Aristotle）进行了演绎推理三段论的完整分析，欧几里得（Euclid）所著Elements是一种形式推理的模型，MuḥammadibnMūsāal-Khwārizmī,发明了代数学，即我们
关于yolov5训练时参数workers和batch-size的理解 - 2
关于yolov5训练时参数workers和batch-size的理解yolov5训练命令workers和batch-size参数的理解两个参数的调优总结yolov5训练命令python.\train.py--datamy.yaml--workers8--batch-size32--epochs100yolov5的训练很简单，下载好仓库，装好依赖后，只需自定义一下data目录中的yaml文件就可以了。这里我使用自定义的my.yaml文件，里面就是定义数据集位置和训练种类数和名字。workers和batch-size参数的理解一般训练主要需要调整的参数是这两个：workers指数据装载时cpu所使