REINFORCEMENT_草庐IT

HuggingFace发表了一篇博客，详细讲解了ChatGPT背后的技术原理——RLHF。笔者读过之后，觉得讲解的还是蛮清晰的，因此提炼了一下核心脉络，希望给对ChatGPT技术原理感兴趣的小伙伴带来帮助。此外，文末整理了几篇关于RLHF最热门的12篇必读论文，卖萌酱打包好挂在公众号后台了，感兴趣的小伙伴可以在公众号“夕小瑶的卖萌屋”后台回复【1212】领取。在过去几年里，基于prompt范式的AI生成模型取得了巨大的成功，诞生了不少有意思的AI应用，例如AI写小说，AI写代码，AI画图甚至AI做视频等。但其实这种生成模型很难训练。以语言模型为例，大多是采用“自回归生成”的方式，通过循环解码的