这些技术，ChatGPT和它的潜在竞争者们都在用

机器之心 2023-03-28 原文

随着 ChatGPT 的出现以及随之而来的广泛讨论，RLHF、SFT、IFT、CoT 等晦涩的缩略词出现在公众面前，这都归功于 ChatGPT 的成功。这些晦涩的缩略词是什么？为什么它们如此重要？本文作者查阅了所有关于这些主题的重要论文，进行了分类总结。

ChatGPT 并不是第一个基于语言模型（LM）的对话智能体，事实上，许多机构在 OpenAI 之前发布过语言模型对话智能体，包括 Meta BlenderBot、Google LaMDA、DeepMind 的 Sparrow 和 Anthropic Assistant。一些机构也宣布建立开源聊天机器人的计划，并公开了路线图（如 LAION 的 Open-Assistant）。肯定还有其它机构在做同样的工作，只是没有宣布。

下表根据上面提到的 AI 聊天机器人是否可公开访问、训练数据、模型架构和评估的详细信息，对它们进行了比较。ChatGPT 没有相关数据，这里使用的是 InstructGPT 的资料，它是 OpenAI 的一个微调模型，被认为是 ChatGPT 的基础。

尽管在训练数据、模型和微调方面存在许多差异，但这些聊天机器人也存在一些共性 —— 指令遵循（instruction following），即根据用户的指令，给出响应。例如让 ChatGPT 写一首关于微调的诗。

从预测文本到遵循指令

通常而言，基础语言建模的目标不足以让模型高效地遵循用户的指示。模型创建者还使用指令微调（Instruction Fine-Tuning，IFT），它可以在多样化任务上对基本模型进行微调，还能应用在情感分析、文本分类、摘要等经典 NLP 任务。

IFT 主要由三个部分组成：指令、输入和输出。输入是可选的，有些任务只需要指令，如上面的 ChatGPT 示例。输入和输出构成实例（instance）。给定的指令可以有多个输入和输出。相关示例如下（[Wang et al., ‘22]）。

IFT 的数据通常使用人类的指令和语言模型 bootstrapped 的指令集合。对于 bootstraping，LM 会在零样本的情况下根据 prompt，生成新的指令、输入和输出。在每一轮中，模型都会得到从人类编写和生成模型中选择的样本的 prompt。人类和模型贡献数据集的情况可以用频谱表示，如下图所示。

一种是纯模型生成的 IFT 数据集如 Unnatural Instructions，另一种是集社区努力、手动创建的指令如 Super natural Instructions。位于这两者之间，选用高质量种子数据集然后进行 bootstrap 如 Self-instruct。为 IFT 收集数据集的另一种方法是将现有高质量众包 NLP 数据集用于各种任务（包括 prompting），并使用统一的模式或不同的模板将这些数据集作为指令，相关工作包括 T0、Natural instructions 数据集、FLAN LM 和 OPT-IML。

安全遵循指令

LM 使用微调后的指令，可能并不总是生成有用安全的响应。这种行为的示例包括无效回应（托词），总是给出诸如「对不起，我不明白」之类的无效回答，或者对用户关于敏感话题的输入做出不安全的回应。

为了解决这种问题，模型开发人员使用监督式微调（Supervised Fine-tuning, SFT），在高质量的人类标记数据上微调基础语言模型，以实现有效和安全的响应。

SFT 和 IFT 紧密相连。指令调优可以看作是监督式微调的子集。在最近的文献中，SFT 阶段通常用于安全主题，而不是在 IFT 之后进行的指令特定主题。未来这种分类和描述会有更清晰的用例和方法。

谷歌的 LaMDA 也是根据一组规则对带有安全注释的对话数据集微调。这些规则通常是由模型创建者预先定义和制定的，包含一系列广泛的主题，如有害、歧视和错误信息。

模型微调

另一方面，OpenAI 的 InstructGPT、DeepMind 的 Sparrow 和 Anthropic 的 ConstitutionalAI 均使用从人类反馈中强化学习（reinforcement learning from human feedback, RLHF）的技术。在 RLHF 中，模型响应基于人类反馈（如选择一个更好的答案）进行排序，然后用这些带注释的响应训练模型，以返回 RL 优化器的 scalar 奖励，最后通过强化学习训练对话智能体来模拟偏好模型。

思维链（Chain-of-thought, CoT）是指令演示的特殊情况，通过从对话智能体中引出逐步推理生成输出。用 CoT 进行微调的模型使用带有逐步推理的人类注释的指令数据集。如下示例所示，橙色标记代表指令，粉色标记代表输入和输出，蓝色标记代表 CoT 推理。

用 CoT 来微调的模型在涉及常识、算术和符号推理的任务上表现得更好。CoT 进行微调也显示出对实现无害性非常有效（有时比 RLHF 做得更好），并且模型不会回避并产生「对不起，我无法回答这个问题」等回复。

要点总结

本文要点总结如下：

1、与预训练数据相比，只需要非常小的一部分数据来对指令进行微调。

2、监督式微调使用人工标注使模型输出更安全和更有帮助。

3、 CoT 微调提高模型在逐步思考任务上的性能，并减少了它们在敏感话题上的无效响应或回避不答。

对话智能体的进一步工作思考

最后，作者对未来对话智能体的发展给出了自己的一些思考。

1、 RL 在从人类反馈中学习有多重要？可以通过 IFT 或 SFT 中的高质量数据训练获得与 RLHF 一样的性能吗？

2、与在 LaMDA 中使用 SFT 相比，在 Sparrow 中使用 SFT+RLHF 的安全性如何？

3、 IFT、SFT、CoT 和 RLHF，需要怎样程度的预训练？tradeoff 是什么？应该使用的最好的基础模型是什么？

4、文中介绍的许多模型都是经过精心设计，工程师们专门收集导致失败的模式，并根据已处理的问题改善未来的训练（prompts 和方法）。要如何系统地记录这些方法的效果并重现它们？

在用 ChatGPT span font-size style 人工智能新闻 $技术 AI

有关这些技术，ChatGPT和它的潜在竞争者们都在用的更多相关文章

亚特兰蒂斯的回声（中文版): chatGPT 的杰作 - 2
英文版英文链接关注公众号在“亚特兰蒂斯的回声”中踏上一段难忘的冒险之旅，深入未知的海洋深处。足智多谋的考古学家AriaSeaborne偶然发现了一件古代神器，揭示了一张通往失落之城亚特兰蒂斯的隐藏地图。在她神秘的导师内森·兰登教授的指导和勇敢的冒险家亚历克斯·默瑟的帮助下，阿丽亚开始了一段危险的旅程，以揭开这座传说中城市的真相。他们的冒险之旅带领他们穿越险恶的大海、神秘的岛屿和充满陷阱和谜语的致命迷宫。随着Aria潜在的魔法能力的觉醒，她被睿智勇敢的QueenNeria的幻象所指引，她让她为即将到来的挑战做好准备。三人组揭开亚特兰蒂斯令人惊叹的隐藏文明，并了解到邪恶的巫师马拉卡勋爵试图利用其古
Unity 热更新技术 | （三） Lua语言基本介绍及下载安装 - 2
?博客主页：https://xiaoy.blog.csdn.net?本文由呆呆敲代码的小Y原创，首发于CSDN??学习专栏推荐：Unity系统学习专栏?游戏制作专栏推荐：游戏制作?Unity实战100例专栏推荐：Unity实战100例教程?欢迎点赞?收藏⭐留言?如有错误敬请指正！?未来很长，值得我们全力奔赴更美好的生活✨------------------❤️分割线❤️-------------------------
MIMO-OFDM无线通信技术及MATLAB实现（1）无线信道：传播和衰落 - 2
MIMO技术的优缺点优点通过下面三个增益来总体概括：阵列增益。阵列增益是指由于接收机通过对接收信号的相干合并而活得的平均SNR的提高。在发射机不知道信道信息的情况下，MIMO系统可以获得的阵列增益与接收天线数成正比复用增益。在采用空间复用方案的MIMO系统中，可以获得复用增益，即信道容量成倍增加。信道容量的增加与min(Nt,Nr)成正比分集增益。在采用空间分集方案的MIMO系统中，可以获得分集增益，即可靠性性能的改善。分集增益用独立衰落支路数来描述，即分集指数。在使用了空时编码的MIMO系统中，由于接收天线或发射天线之间的间距较远，可认为它们各自的大尺度衰落是相互独立的，因此分布式MIMO
ruby - 在 Ruby 中的另一个上下文中评估潜在的相对 URI - 2
我在Ruby程序中有两个URI。一个肯定是绝对URI，另一个可能是绝对URI或相对URI。我想在第一个的上下文中将第二个转换为绝对URI，所以如果第一个是http://pupeno.com/blog第二个是/about，结果应该是http://pupeno.com/about.有什么想法吗？最佳答案 Ruby的内置URI和Addressablegem，做这个简短的工作。我更喜欢Addressable，因为它功能更全面，但URI是内置的。require'uri'URI.join('http://pupeno.com/blog','/
ruby-on-rails - 用于门户的 Ruby 技术 - 2
我刚刚看到whitehouse.gov正在使用drupal作为CMS和门户技术。drupal的优点之一似乎是很容易添加插件，而且编程最少，即重新发明轮子最少。这实际上正是Ruby-on-Rails的DRY理念。所以:drupal的缺点是什么？Rails或其他基于Ruby的技术有哪些不符合whitehouse.org(或其他CMS门户)门户技术的资格？最佳答案 Whatarethedrawbacksofdrupal?对于Ruby和Rails，这确实是一个相当主观的问题。Drupal是一个可靠的内容管理选项，非常适合面向社区的站点。它
ruby - 为什么这些方法没有解决？ - 2
这个问题在这里已经有了答案:WhydoRubysettersneed"self."qualificationwithintheclass?(3个答案)关闭29天前。给定这段代码:classSomethingattr_accessor:my_variabledefinitialize@my_variable=0enddeffoomy_variable=my_variable+3endends=Something.news.foo我收到这个错误:test.rb:9:in`foo':undefinedmethod`+'fornil:NilClass(NoMethodError)fromtes
iNFTnews | 周杰伦18年前未发布的作品Demo，藏在了区块链技术里 - 2
当音乐碰上区块链技术，会擦出怎样的火花？或许周杰伦已经给了我们答案。8月29日下午，B站独家首发周杰伦限定珍藏Demo独家访谈VCR，周杰伦在VCR里分享了《晴天》《青花瓷》《搁浅》《爱在西元前》四首经典歌曲Demo背后的创作故事，并首次公布18年前未发布的神秘作品《纽约地铁》的Demo。在VCR中，方文山和杰威尔音乐提及到“多亏了区块链技术，现在我们可以将这些Demos，变成独一无二具有收藏价值的艺术品，这些Demos可以在薄盒（国内数藏平台）上听到。”如何将音乐与区块链技术相结合，薄盒方面称：“薄盒作为区块链技术服务方，打破传统对于区块链技术只能作为数字收藏的理解。聚焦于区块链技术赋能，在
智能客服 | 浅谈人工智能聊天机器人ChatGPT - 2
2022年底，OpenAI的预训练模型ChatGPT给人工智能领域的爱好者和研究人员留下了深刻的印象和启发，他展现的惊人能力将人工智能的研究和应用热度推向高潮，网上也充斥着和ChatGPT的各种聊天，他可以作诗、写小说、写代码、讨论疫情问题等。下面就是一些他的神回复：人命关天的坑：写歌，留给词作者的机会不多了。。。回答人类怎么样面对人工智能：什么是ChatGPT？借用网上的一段介绍，ChatGPT是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型，一款人工智能技术驱动的自然语言处理工具。它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动
【ChatGPT】ChatGPT 的 N 种用法 - 2
目录ChatGPT简介技术原理应用未来发展ChatGPT的10 种用法ChatGPT简介ChatGPT是一种基于深度学习的大型语言模型，由OpenAI公司开发。技术原理GPT是GenerativePre-trainedTransformer的缩写，意为生成式预训练变压器。它的技术原理是使用了一个基于注意力机制的变压器（Trans
python - 这些脚本语言中哪种更适合渗透测试？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭9年前。Improvethisquestion首先，我想避免一场关于语言的口水战。可供选择的语言有Perl、Python和Ruby。我想提一下，我对所有这些都很满意，但问题是我不能只专注于一个。例如，如果我看到一个很棒的Perl模块，我必须尝试一下。如果我看到一个不错的Python应用程序，我必须知道它是如何制作的。如果我看到RubyDSL或一些Ruby巫术，我就会迷上Ruby一段时间。目前我是一名Java开发人员，但计划在不久的将来