草庐IT

这些技术,ChatGPT和它的潜在竞争者们都在用

机器之心 2023-03-28 原文
随着 ChatGPT 的出现以及随之而来的广泛讨论,RLHF、SFT、IFT、CoT 等晦涩的缩略词出现在公众面前,这都归功于 ChatGPT 的成功。这些晦涩的缩略词是什么?为什么它们如此重要?本文作者查阅了所有关于这些主题的重要论文,进行了分类总结。

ChatGPT 并不是第一个基于语言模型(LM)的对话智能体,事实上,许多机构在 OpenAI 之前发布过语言模型对话智能体,包括 Meta BlenderBot、Google LaMDA、DeepMind 的 Sparrow 和 Anthropic Assistant。一些机构也宣布建立开源聊天机器人的计划,并公开了路线图(如 LAION 的 Open-Assistant)。肯定还有其它机构在做同样的工作,只是没有宣布。

下表根据上面提到的 AI 聊天机器人是否可公开访问、训练数据、模型架构和评估的详细信息,对它们进行了比较。ChatGPT 没有相关数据,这里使用的是 InstructGPT 的资料,它是 OpenAI 的一个微调模型,被认为是 ChatGPT 的基础。

尽管在训练数据、模型和微调方面存在许多差异,但这些聊天机器人也存在一些共性 —— 指令遵循(instruction following),即根据用户的指令,给出响应。例如让 ChatGPT 写一首关于微调的诗。 

从预测文本到遵循指令

通常而言,基础语言建模的目标不足以让模型高效地遵循用户的指示。模型创建者还使用指令微调(Instruction Fine-Tuning,IFT),它可以在多样化任务上对基本模型进行微调,还能应用在情感分析、文本分类、摘要等经典 NLP 任务。

IFT 主要由三个部分组成:指令、输入和输出。输入是可选的,有些任务只需要指令,如上面的 ChatGPT 示例。输入和输出构成实例(instance)。给定的指令可以有多个输入和输出。相关示例如下([Wang et al., ‘22])。

IFT 的数据通常使用人类的指令和语言模型 bootstrapped 的指令集合。对于 bootstraping,LM 会在零样本的情况下根据 prompt,生成新的指令、输入和输出。在每一轮中,模型都会得到从人类编写和生成模型中选择的样本的 prompt。人类和模型贡献数据集的情况可以用频谱表示,如下图所示。

一种是纯模型生成的 IFT 数据集如 Unnatural Instructions,另一种是集社区努力、手动创建的指令如 Super natural Instructions。位于这两者之间,选用高质量种子数据集然后进行 bootstrap 如 Self-instruct。为 IFT 收集数据集的另一种方法是将现有高质量众包 NLP 数据集用于各种任务(包括 prompting),并使用统一的模式或不同的模板将这些数据集作为指令,相关工作包括 T0、Natural instructions 数据集、FLAN LM 和 OPT-IML。

安全遵循指令

LM 使用微调后的指令,可能并不总是生成有用安全的响应。这种行为的示例包括无效回应(托词),总是给出诸如「对不起,我不明白」之类的无效回答,或者对用户关于敏感话题的输入做出不安全的回应。

为了解决这种问题,模型开发人员使用监督式微调(Supervised Fine-tuning, SFT),在高质量的人类标记数据上微调基础语言模型,以实现有效和安全的响应。

SFT 和 IFT 紧密相连。指令调优可以看作是监督式微调的子集。在最近的文献中,SFT 阶段通常用于安全主题,而不是在 IFT 之后进行的指令特定主题。未来这种分类和描述会有更清晰的用例和方法。

谷歌的 LaMDA 也是根据一组规则对带有安全注释的对话数据集微调。这些规则通常是由模型创建者预先定义和制定的,包含一系列广泛的主题,如有害、歧视和错误信息。

模型微调

另一方面,OpenAI 的 InstructGPT、DeepMind 的 Sparrow 和 Anthropic 的 ConstitutionalAI 均使用从人类反馈中强化学习(reinforcement learning from human feedback, RLHF)的技术。在 RLHF 中,模型响应基于人类反馈(如选择一个更好的答案)进行排序,然后用这些带注释的响应训练模型,以返回 RL 优化器的 scalar 奖励,最后通过强化学习训练对话智能体来模拟偏好模型。

思维链(Chain-of-thought, CoT)是指令演示的特殊情况,通过从对话智能体中引出逐步推理生成输出。用 CoT 进行微调的模型使用带有逐步推理的人类注释的指令数据集。如下示例所示,橙色标记代表指令,粉色标记代表输入和输出,蓝色标记代表 CoT 推理。

用 CoT 来微调的模型在涉及常识、算术和符号推理的任务上表现得更好。CoT 进行微调也显示出对实现无害性非常有效(有时比 RLHF 做得更好),并且模型不会回避并产生「对不起,我无法回答这个问题」等回复。

要点总结

本文要点总结如下:

1、 与预训练数据相比,只需要非常小的一部分数据来对指令进行微调。

2、 监督式微调使用人工标注使模型输出更安全和更有帮助。

3、 CoT 微调提高模型在逐步思考任务上的性能,并减少了它们在敏感话题上的无效响应或回避不答。

对话智能体的进一步工作思考

最后,作者对未来对话智能体的发展给出了自己的一些思考。

1、 RL 在从人类反馈中学习有多重要?可以通过 IFT 或 SFT 中的高质量数据训练获得与 RLHF 一样的性能吗?

2、 与在 LaMDA 中使用 SFT 相比,在 Sparrow 中使用 SFT+RLHF 的安全性如何?

3、 IFT、SFT、CoT 和 RLHF,需要怎样程度的预训练?tradeoff 是什么?应该使用的最好的基础模型是什么?

4、 文中介绍的许多模型都是经过精心设计,工程师们专门收集导致失败的模式,并根据已处理的问题改善未来的训练(prompts 和方法)。要如何系统地记录这些方法的效果并重现它们?

有关这些技术,ChatGPT和它的潜在竞争者们都在用的更多相关文章

  1. 亚特兰蒂斯的回声(中文版): chatGPT 的杰作 - 2

    英文版英文链接关注公众号在“亚特兰蒂斯的回声”中踏上一段难忘的冒险之旅,深入未知的海洋深处。足智多谋的考古学家AriaSeaborne偶然发现了一件古代神器,揭示了一张通往失落之城亚特兰蒂斯的隐藏地图。在她神秘的导师内森·兰登教授的指导和勇敢的冒险家亚历克斯·默瑟的帮助下,阿丽亚开始了一段危险的旅程,以揭开这座传说中城市的真相。他们的冒险之旅带领他们穿越险恶的大海、神秘的岛屿和充满陷阱和谜语的致命迷宫。随着Aria潜在的魔法能力的觉醒,她被睿智勇敢的QueenNeria的幻象所指引,她让她为即将到来的挑战做好准备。三人组揭开亚特兰蒂斯令人惊叹的隐藏文明,并了解到邪恶的巫师马拉卡勋爵试图利用其古

  2. Unity 热更新技术 | (三) Lua语言基本介绍及下载安装 - 2

    ?博客主页:https://xiaoy.blog.csdn.net?本文由呆呆敲代码的小Y原创,首发于CSDN??学习专栏推荐:Unity系统学习专栏?游戏制作专栏推荐:游戏制作?Unity实战100例专栏推荐:Unity实战100例教程?欢迎点赞?收藏⭐留言?如有错误敬请指正!?未来很长,值得我们全力奔赴更美好的生活✨------------------❤️分割线❤️-------------------------

  3. MIMO-OFDM无线通信技术及MATLAB实现(1)无线信道:传播和衰落 - 2

     MIMO技术的优缺点优点通过下面三个增益来总体概括:阵列增益。阵列增益是指由于接收机通过对接收信号的相干合并而活得的平均SNR的提高。在发射机不知道信道信息的情况下,MIMO系统可以获得的阵列增益与接收天线数成正比复用增益。在采用空间复用方案的MIMO系统中,可以获得复用增益,即信道容量成倍增加。信道容量的增加与min(Nt,Nr)成正比分集增益。在采用空间分集方案的MIMO系统中,可以获得分集增益,即可靠性性能的改善。分集增益用独立衰落支路数来描述,即分集指数。在使用了空时编码的MIMO系统中,由于接收天线或发射天线之间的间距较远,可认为它们各自的大尺度衰落是相互独立的,因此分布式MIMO

  4. ruby - 在 Ruby 中的另一个上下文中评估潜在的相对 URI - 2

    我在Ruby程序中有两个URI。一个肯定是绝对URI,另一个可能是绝对URI或相对URI。我想在第一个的上下文中将第二个转换为绝对URI,所以如果第一个是http://pupeno.com/blog第二个是/about,结果应该是http://pupeno.com/about.有什么想法吗? 最佳答案 Ruby的内置URI和Addressablegem,做这个简短的工作。我更喜欢Addressable,因为它功能更全面,但URI是内置的。require'uri'URI.join('http://pupeno.com/blog','/

  5. ruby-on-rails - 用于门户的 Ruby 技术 - 2

    我刚刚看到whitehouse.gov正在使用drupal作为CMS和门户技术。drupal的优点之一似乎是很容易添加插件,而且编程最少,即重新发明轮子最少。这实际上正是Ruby-on-Rails的DRY理念。所以:drupal的缺点是什么?Rails或其他基于Ruby的技术有哪些不符合whitehouse.org(或其他CMS门户)门户技术的资格? 最佳答案 Whatarethedrawbacksofdrupal?对于Ruby和Rails,这确实是一个相当主观的问题。Drupal是一个可靠的内容管理选项,非常适合面向社区的站点。它

  6. ruby - 为什么这些方法没有解决? - 2

    这个问题在这里已经有了答案:WhydoRubysettersneed"self."qualificationwithintheclass?(3个答案)关闭29天前。给定这段代码:classSomethingattr_accessor:my_variabledefinitialize@my_variable=0enddeffoomy_variable=my_variable+3endends=Something.news.foo我收到这个错误:test.rb:9:in`foo':undefinedmethod`+'fornil:NilClass(NoMethodError)fromtes

  7. iNFTnews | 周杰伦18年前未发布的作品Demo,藏在了区块链技术里 - 2

    当音乐碰上区块链技术,会擦出怎样的火花?或许周杰伦已经给了我们答案。8月29日下午,B站独家首发周杰伦限定珍藏Demo独家访谈VCR,周杰伦在VCR里分享了《晴天》《青花瓷》《搁浅》《爱在西元前》四首经典歌曲Demo背后的创作故事,并首次公布18年前未发布的神秘作品《纽约地铁》的Demo。在VCR中,方文山和杰威尔音乐提及到“多亏了区块链技术,现在我们可以将这些Demos,变成独一无二具有收藏价值的艺术品,这些Demos可以在薄盒(国内数藏平台)上听到。”如何将音乐与区块链技术相结合,薄盒方面称:“薄盒作为区块链技术服务方,打破传统对于区块链技术只能作为数字收藏的理解。聚焦于区块链技术赋能,在

  8. 智能客服 | 浅谈人工智能聊天机器人ChatGPT - 2

    2022年底,OpenAI的预训练模型ChatGPT给人工智能领域的爱好者和研究人员留下了深刻的印象和启发,他展现的惊人能力将人工智能的研究和应用热度推向高潮,网上也充斥着和ChatGPT的各种聊天,他可以作诗、写小说、写代码、讨论疫情问题等。下面就是一些他的神回复:人命关天的坑: 写歌,留给词作者的机会不多了。。。 回答人类怎么样面对人工智能: 什么是ChatGPT?借用网上的一段介绍,ChatGPT是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型,一款人工智能技术驱动的自然语言处理工具。它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动

  9. 【ChatGPT】ChatGPT 的 N 种用法 - 2

    目录ChatGPT简介技术原理应用未来发展ChatGPT的10 种用法ChatGPT简介ChatGPT是一种基于深度学习的大型语言模型,由OpenAI公司开发。技术原理GPT是GenerativePre-trainedTransformer的缩写,意为生成式预训练变压器。它的技术原理是使用了一个基于注意力机制的变压器(Trans

  10. python - 这些脚本语言中哪种更适合渗透测试? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭9年前。Improvethisquestion首先,我想避免一场关于语言的口水战。可供选择的语言有Perl、Python和Ruby。我想提一下,我对所有这些都很满意,但问题是我不能只专注于一个。例如,如果我看到一个很棒的Perl模块,我必须尝试一下。如果我看到一个不错的Python应用程序,我必须知道它是如何制作的。如果我看到RubyDSL或一些Ruby巫术,我就会迷上Ruby一段时间。目前我是一名Java开发人员,但计划在不久的将来

随机推荐