reinforcement_草庐IT

商简智能学术成果|基于深度强化学习的联想电脑制造调度（Lenovo Schedules Laptop Manufacturing Using Deep Reinforcement Learning）

获取更多资讯，赶快关注上面的公众号吧！文章目录摘要背景介绍传统方法无法解决现有挑战解决方案提升模型表达能力针对复杂约束的掩码机制快速模型训练配置多目标调度优化结论本篇论文作为商简智能的最新研究成果，发表于运筹学顶刊《INFORMSJOURNALONAPPLIEDANALYTICS》，首次将深度强化学习落地于大规模制造调度场景，该先进排程项目入围国际运筹学权威机构INFORMS运筹学应用最高奖——FranzEdelmanAward，并作为制造业企业技术转型典型案例被人民日报等多家媒体广泛报道。第一作者梁翼，商简智能CEO兼CTO，人工智能、运筹优化算法专家，取得浙大竺可桢学院物理学学士、Mc

RLHF：基于人类反馈（Human Feedback）对语言模型进行强化学习【Reinforcement Learning from Human Feedback】

HuggingFace发表了一篇博客，详细讲解了ChatGPT背后的技术原理——RLHF。笔者读过之后，觉得讲解的还是蛮清晰的，因此提炼了一下核心脉络，希望给对ChatGPT技术原理感兴趣的小伙伴带来帮助。此外，文末整理了几篇关于RLHF最热门的12篇必读论文，卖萌酱打包好挂在公众号后台了，感兴趣的小伙伴可以在公众号“夕小瑶的卖萌屋”后台回复【1212】领取。在过去几年里，基于prompt范式的AI生成模型取得了巨大的成功，诞生了不少有意思的AI应用，例如AI写小说，AI写代码，AI画图甚至AI做视频等。但其实这种生成模型很难训练。以语言模型为例，大多是采用“自回归生成”的方式，通过循环解码的