这篇文章是接着上一篇讲的:诸神黄昏时代的对比学习_LolitaAnn的技术博客_51CTO博客如果有什么漏误,请大家批评指正。看这一块的时候让我回想起了GPT和BERT。那个时候GPT刚出来,惊为天人,虽然用无标签数据做出来了预训练模型加微调的事情。然后呢BERT就出来了,用更大的数据集更大的模型训练了语言模型。并且还在论文中写的“我们做了两个模型,一个bertbase,一个bertlarge,做bertbase的原因。就是要和GPT比较。”这话一出来你能忍吗。所以GPT啪就做了一个GPT-2。用更更大的数据集做出来一个更更大的语言模型。从那之后NLP领域的预训练模型就有着越做越大的趋势。各家