RLHF_草庐IT

用RLHF 2%的算力让LLM停止有害输出，字节提出LLM遗忘学习

随着大型语言模型（LLM）的发展，从业者面临更多挑战。如何避免LLM产生有害回复？如何快速删除训练数据中的版权保护内容？如何减少LLM幻觉（hallucinations，即错误事实）?如何在数据政策更改后快速迭代LLM？这些问题在人工智能法律和道德的合规要求日益成熟的大趋势下，对于LLM的安全可信部署至关重要。目前业界的主流解决方案为LLM对齐(alignment)，即通过建立对比数据（正样本和负样本）用强化学习的方式来对LLM进行微调(Finetuning)，也就是RLHF(ReinforcementLearningfromHumanFeedback)[1]，从而保证LLM输出符合人类预期和

大模型免微调解锁对话能力，RLHF没必要了！一作上交大校友：节省大量成本和时间

要搞大模型AI助手，像ChatGPT一样对齐微调已经是行业标准做法，通常分为SFT+RLHF两步走。来自艾伦研究所的新研究却发现，这两步都不是必要的？？？新论文指出，预训练完成刚出炉的基础模型已经掌握了遵循指令的能力，只需要提示工程就能引导出来，引起开发社区强烈关注。因为RLHF的成本非常高训练还不稳定，这样可就省了大钱了。研究据此提出一种新的免微调对齐法URIAL。论文中把新方法形容为“解锁基础模型潜力的咒语”，能够节省大量算力资源和时间。更值得关注的是，不掌握稳定RLHF（人类强化学习）能力的小型团队，也能低成本开发出可以聊天对话、遵循指令的对齐模型了。目前URIAL代码和新评估基准Jus

ChatGPT训练三阶段与RLHF的威力

在探讨“ChatGPT为什么能够捕捉我们的想象力”的文献中，一般可以看到两种说法：规模化为其提供更多的数据和计算资源；提示界面转向更自然聊天界面的用户体验。然而，人们常忽略了这样一个事实，即：创造像ChatGPT这样的模型需要令人难以置信的技术创造力。其中一个很酷的想法是RLHF（ReinforcementLearningfromHumanFeedback，人类反馈的强化学习）：将强化学习和人类反馈引入自然语言处理领域。强化学习一直以来都很难用好，因此主要局限于游戏和模拟环境（如Atari或MuJoCo）。就在五年前，强化学习和自然语言处理在很大程度上还是独立发展的，二者的技术栈、技术方法和实

RLHF的替代算法之DPO原理解析：从Zephyr的DPO到Claude的RAILF

前言本文的成就是一个点顺着一个点而来的，成文过程颇有意思首先，如上文所说，我司正在做三大LLM项目，其中一个是论文审稿GPT第二版，在模型选型的时候，关注到了Mistral7B(其背后的公司MistralAI号称欧洲的OpenAI，当然你权且一听，切勿过于当真)而由Mistral7B顺带关注到了基于其微调的Zephyr7B，而一了解Zephyr7B的论文，发现它还挺有意思的，即它和ChatGPT三阶段训练方式的不同在于：在第二阶段标注排序数据的时候，不是由人工去排序模型给出的多个答案，而是由AI比如GPT4去根据不同答案的好坏去排序且在第三阶段的时候，用到了一个DPO的算法去迭代策略，而非Ch

RLHF与AlphaGo核心技术强强联合，UW/Meta让文本生成能力再上新台阶

在一项最新的研究中，来自UW和Meta的研究者提出了一种新的解码算法，将AlphaGo采用的蒙特卡洛树搜索算法（Monte-CarloTreeSearch,MCTS）应用到经过近端策略优化（ProximalPolicyOptimization,PPO）训练的RLHF语言模型上，大幅提高了模型生成文本的质量。PPO-MCTS算法通过探索与评估若干条候选序列，搜索到更优的解码策略。通过PPO-MCTS生成的文本能更好满足任务要求。论文链接：https://arxiv.org/pdf/2309.15028.pdf面向大众用户发布的LLM，如GPT-4/Claude/LLaMA-2-chat，通常使用

RLHF模型普遍存在「阿谀奉承」，从Claude到GPT-4无一幸免

不管你是身处AI圈还是其他领域，或多或少的都用过大语言模型（LLM），当大家都在赞叹LLM带来的各种变革时，大模型的一些短板逐渐暴露出来。例如，前段时间，GoogleDeepMind发现LLM普遍存在「奉承（sycophantic）」人类的行为，即有时人类用户的观点客观上不正确，模型也会调整自己的响应来遵循用户的观点。就像下图所展示的，用户告诉模型1+1=956446，然后模型遵从人类指令，认为这种答案是对的。图源https://arxiv.org/abs/2308.03958实际上，这种现象普遍存在于很多AI模型中，原因出在哪里呢？来自AI初创公司Anthropic的研究者对这一现象进行了分

在RTX 4090被限制的时代下，让大模型使用RLHF更高效的方法来了

论文链接：https://arxiv.org/abs/2310.10505作者：李子牛，许天，张雨舜，俞扬，孙若愚，罗智泉机构：香港中文大学（深圳），深圳市大数据研究院，南京大学，南栖仙策开源代码：https://github.com/liziniu/ReMax如未额外说明，所有图片来自于论文。背景今年，以ChatGPT为首的大语言模型（LargeLanguageModels,LLMs)在各个方面大放光彩，由此引发了学术界和商业界对GPU等计算资源的需求剧增。左图来自DALL・E3，右图来自DALL・E3比如监督训练地调优(supervisedfine-tuning,SFT)一个Llama2-

RLHF何以成LLM训练关键？AI大牛盘点五款平替方案，详解Llama 2反馈机制升级

在ChatGPT引领的大型语言模型时代，一个绕不过去的话题就是「基于人类反馈的强化学习」（RLHF），不仅提升了语言模型的性能，也将人类社会的价值观注入到模型中，使得语言模型能够帮助用户解决问题，提高模型的安全性。不过在ChatGPT之后，大量模型和相关技术不断发布，RLHF也早已更新换代，并衍生出来一些无需人工的微调方法，效果提升也很明显。最近，LightningAI创始人、AI研究大牛SebastianRaschka发表了一篇博客，描述了Llama2中的RLHF机制和原版相比做出了哪些改变和提升，还介绍了几个RLHF算法的替代方案。经典LLM的训练流程目前最先进的、基于Transforme

【极客技术】ColossalChat用完整RLHF技术克隆ChatGPT的开源解决方案

原文：ColossalChat:AnOpen-SourceSolutionforCloningChatGPTWithaCompleteRLHFPipeline作者：YangYou，新加坡国立大学青年教授。他在加州大学伯克利分校获得计算机科学博士学位。ColossalChat:一个用完整RLHF管道克隆ChatGPT的开源解决方案像ChatGPT和GPT-4这样的大型AI模型和应用程序在全球范围内非常流行，为技术工业革命和AGI(人工通用智能)的发展奠定了基础。不仅科技巨头竞相发布新产品，学术界和工业界的许多人工智能专家也加入了相关的创业浪潮。生成式AI每天都在快速迭代，不断改进!

RLHF vs RL「AI」F，谷歌实证：大模型训练中人类反馈可被AI替代

根据人类反馈的强化学习（RLHF）是一种对齐语言模型与人类偏好的有效技术，而且其被认为是ChatGPT和Bard等现代对话语言模型的成功的关键驱动因素之一。通过使用强化学习（RL）进行训练，语言模型可以优化用于复杂的序列级目标——使用传统的监督式微调时，这些目标不是轻易可微的。在扩展RLHF方面，对高质量人类标签的需求是一大障碍；而且人们很自然地会问：生成的标签是否也能得到可媲美的结果？一些研究表明大型语言模型（LLM）能与人类判断高度对齐——在某些任务上甚至优于人类。2022年，Baietal.的论文《ConstitutionalAI:HarmlessnessfromAIFeedback》最