UltraChat_草庐IT

自ChatGPT发布以来，这段时间对话模型的热度只增不减。当我们赞叹这些模型表现惊艳的同时，也应该猜到其背后巨大的算力和海量数据的支持。单就数据而言，高质量的数据至关重要，为此OpenAI对数据和标注工作下了很大力气。有多项研究表明，ChatGPT是比人类更加可靠的数据标注者，如果开源社区可以获得ChatGPT等强大语言模型的大量对话数据，就可以训练出性能更好的对话模型。这一点羊驼系列模型——Alpaca、Vicuna、Koala——已经证明过。例如，Vicuna使用从ShareGPT收集的用户共享数据对LLaMA模型进行指令微调，就复刻了ChatGPT九成功力。越来越多的证据表明，数据是训练