RAILF_草庐IT

前言本文的成就是一个点顺着一个点而来的，成文过程颇有意思首先，如上文所说，我司正在做三大LLM项目，其中一个是论文审稿GPT第二版，在模型选型的时候，关注到了Mistral7B(其背后的公司MistralAI号称欧洲的OpenAI，当然你权且一听，切勿过于当真)而由Mistral7B顺带关注到了基于其微调的Zephyr7B，而一了解Zephyr7B的论文，发现它还挺有意思的，即它和ChatGPT三阶段训练方式的不同在于：在第二阶段标注排序数据的时候，不是由人工去排序模型给出的多个答案，而是由AI比如GPT4去根据不同答案的好坏去排序且在第三阶段的时候，用到了一个DPO的算法去迭代策略，而非Ch