草庐IT

AI对齐全面综述!北大等从800+文献中总结出四万字,多位知名学者挂帅

核心观点速览AI对齐是一个庞大的领域,既包括RLHF/RLAIF等成熟的基础方法,也包括可扩展监督、机制可解释性等诸多前沿研究方向。AI对齐的宏观目标可以总结为RICE原则 :鲁棒性(Robustness)、可解释性(Interpretability)、可控性(Controllability)和道德性(Ethicality)。从反馈学习(LearningfromFeedback)、在分布偏移下学习(LearningunderDistributionShift)、对齐保证(Assurance)、AI治理(Governance)是当下AIAlignment的四个核心子领域。它们构成了一个不断更新、