草庐IT

UltraChat

全部标签

调用多个ChatGPT API相互对话,清华开源的多轮对话数据UltraChat来了

自ChatGPT发布以来,这段时间对话模型的热度只增不减。当我们赞叹这些模型表现惊艳的同时,也应该猜到其背后巨大的算力和海量数据的支持。单就数据而言,高质量的数据至关重要,为此OpenAI对数据和标注工作下了很大力气。有多项研究表明,ChatGPT是比人类更加可靠的数据标注者,如果开源社区可以获得ChatGPT等强大语言模型的大量对话数据,就可以训练出性能更好的对话模型。这一点羊驼系列模型——Alpaca、Vicuna、Koala——已经证明过。例如,Vicuna使用从ShareGPT收集的用户共享数据对LLaMA模型进行指令微调,就复刻了ChatGPT九成功力。越来越多的证据表明,数据是训练