前言本文的成就是一个点顺着一个点而来的,成文过程颇有意思首先,如上文所说,我司正在做三大LLM项目,其中一个是论文审稿GPT第二版,在模型选型的时候,关注到了Mistral7B(其背后的公司MistralAI号称欧洲的OpenAI,当然你权且一听,切勿过于当真)而由Mistral7B顺带关注到了基于其微调的Zephyr7B,而一了解Zephyr7B的论文,发现它还挺有意思的,即它和ChatGPT三阶段训练方式的不同在于:在第二阶段标注排序数据的时候,不是由人工去排序模型给出的多个答案,而是由AI比如GPT4去根据不同答案的好坏去排序且在第三阶段的时候,用到了一个DPO的算法去迭代策略,而非Ch