草庐IT

Schulman

全部标签

ChatGPT作者John Schulman:我们成功的秘密武器

来源|TalkRLOneFlow编译翻译|杨婷、徐佳渝、贾川除了OpenAI,外界可能很少有人知道ChatGPT模型成功的真正原因,实际上,OpenAI也会对ChatGPT拥有的巨大影响力感到不可思议。这种困惑和惊喜就像工程师们解bug时获得的意外成功:Wedon'tknowwhy,butitworks.一种普遍的看法是,ChatGPT没有任何革命性技术,正如Meta首席AI科学家YannLeCun所说,“只是一些巧妙的技术组合而已”。当然,听到这话的围观群众不免调侃LeCun这种同行评议是“吃不到葡萄说葡萄酸”,不过,从ChatGPT的缔造者们后续的表态来看,恐怕也不会否认他的“酸话”。早在

ChatGPT作者John Schulman:我们成功的秘密武器

来源|TalkRLOneFlow编译翻译|杨婷、徐佳渝、贾川除了OpenAI,外界可能很少有人知道ChatGPT模型成功的真正原因,实际上,OpenAI也会对ChatGPT拥有的巨大影响力感到不可思议。这种困惑和惊喜就像工程师们解bug时获得的意外成功:Wedon'tknowwhy,butitworks.一种普遍的看法是,ChatGPT没有任何革命性技术,正如Meta首席AI科学家YannLeCun所说,“只是一些巧妙的技术组合而已”。当然,听到这话的围观群众不免调侃LeCun这种同行评议是“吃不到葡萄说葡萄酸”,不过,从ChatGPT的缔造者们后续的表态来看,恐怕也不会否认他的“酸话”。早在

ChatGPT作者John Schulman:通往TruthGPT之路

OneFlow编译翻译|贾川、徐佳渝、杨婷大型语言模型(LLM)有一个众所周知的“硬伤”——它们经常会一本正经编造貌似真实的内容。 OpenAI团队希望通过改进强化学习反馈步骤“原生地”阻止神经网络产生幻觉,OpenAI首席科学家IlyaSutskever对此胸有成竹。作为ChatGPT项目的主要负责人以及OpenAI强化学习团队的领导者,JohnSchulman在最近的BerkeleyEECS会议上系统性地分享了OpenAI在人类反馈的强化学习(RLHF)方面所做的工作,以及语言模型的幻觉等亟待解决的问题,同时也介绍了解决这些挑战的潜在思路。没有比Schulman更权威的RLHF研究者,他也