时期_草庐IT

这篇文章是接着上一篇讲的：诸神黄昏时代的对比学习_LolitaAnn的技术博客_51CTO博客如果有什么漏误，请大家批评指正。看这一块的时候让我回想起了GPT和BERT。那个时候GPT刚出来，惊为天人，虽然用无标签数据做出来了预训练模型加微调的事情。然后呢BERT就出来了，用更大的数据集更大的模型训练了语言模型。并且还在论文中写的“我们做了两个模型，一个bertbase，一个bertlarge，做bertbase的原因。就是要和GPT比较。”这话一出来你能忍吗。所以GPT啪就做了一个GPT-2。用更更大的数据集做出来一个更更大的语言模型。从那之后NLP领域的预训练模型就有着越做越大的趋势。各家