评语_草庐IT

现有的大模型对齐方法包括基于示例的监督微调（SFT）和基于分数反馈的强化学习（RLHF）。然而，分数只能反应当前回复的好坏程度，并不能明确指出模型的不足之处。相较之下，我们人类通常是从语言反馈中学习并调整自己的行为模式。就像审稿意见不仅仅是一个分数，还包括许多接受或者拒绝的理由。那么，大语言模型能否也像人类一样利用语言反馈来改善自身呢？最近，香港中文大学和腾讯AILab的研究者们提出了一项名为对比式非似然训练（ContrastiveUnlikelihoodLearning，CUT）的创新研究，利用语言反馈来对齐语言模型，让模型像人类一样从不同的批评意见中学习成长。CUT简单有效。仅凭1317条