草庐IT

BERT如何进化-预训练语言模型研究进展【1】

模型结构演进本文以演进方向和目的为线索梳理了一些我常见到但不是很熟悉的预训练语言模型,首先来看看“完全版的BERT”:RoBERTa:ARobustlyOptimizedBERTPretrainingApproach(2019)可看成是完全体的BERT,主要3方面改进,首先采用了Dynamicmask,即每个文本进入训练时动态mask掉部分token,相比原来的Bert,可以达到同一个文本在不同epoch被mask掉的token不同,相当于做了一个数据增强。其次,不使用NSP任务,效果会有一定提升。最后,RoBERTa增大了训练时间和训练数据、batchsize以及对BPE(输入文本的分词方法

BERT如何进化-预训练语言模型研究进展【1】

模型结构演进本文以演进方向和目的为线索梳理了一些我常见到但不是很熟悉的预训练语言模型,首先来看看“完全版的BERT”:RoBERTa:ARobustlyOptimizedBERTPretrainingApproach(2019)可看成是完全体的BERT,主要3方面改进,首先采用了Dynamicmask,即每个文本进入训练时动态mask掉部分token,相比原来的Bert,可以达到同一个文本在不同epoch被mask掉的token不同,相当于做了一个数据增强。其次,不使用NSP任务,效果会有一定提升。最后,RoBERTa增大了训练时间和训练数据、batchsize以及对BPE(输入文本的分词方法

Bert不完全手册4. 绕开BERT的MASK策略?XLNET & ELECTRA

基于随机tokenMASK是Bert能实现双向上下文信息编码的核心。但是MASK策略本身存在一些问题MASK的不一致性:MASK只在预训练任务中存在,在微调中不存在,Bert只是通过替换部分的随机MASK来降低不一致性的影响独立性假设:对MASK的预测是基于独立概率而不是联合概率,模型并不会考虑MASK之间的条件关联MASK训练低效:每次只遮盖15%的token,每个batch的模型更新只基于这15%的input,导致模型训练效率较低MASK有这么多的问题,那能否绕过MASK策略来捕捉双向上下文信息呢?下面介绍两种方案XLNET,Electra,它们使用两种截然不同的方案实现了在下游迁移的En

Bert不完全手册4. 绕开BERT的MASK策略?XLNET & ELECTRA

基于随机tokenMASK是Bert能实现双向上下文信息编码的核心。但是MASK策略本身存在一些问题MASK的不一致性:MASK只在预训练任务中存在,在微调中不存在,Bert只是通过替换部分的随机MASK来降低不一致性的影响独立性假设:对MASK的预测是基于独立概率而不是联合概率,模型并不会考虑MASK之间的条件关联MASK训练低效:每次只遮盖15%的token,每个batch的模型更新只基于这15%的input,导致模型训练效率较低MASK有这么多的问题,那能否绕过MASK策略来捕捉双向上下文信息呢?下面介绍两种方案XLNET,Electra,它们使用两种截然不同的方案实现了在下游迁移的En

【NLP 系列】Bert 词向量的空间分布

作者:京东零售彭馨1.背景我们知道Bert预训练模型针对分词、ner、文本分类等下游任务取得了很好的效果,但在语义相似度任务上,表现相较于Word2Vec、Glove等并没有明显的提升。有学者研究发现,这是因为Bert词向量存在各向异性(不同方向表现出的特征不一致),高频词分布在狭小的区域,靠近原点,低频词训练不充分,分布相对稀疏,远离原点,词向量整体的空间分布呈现锥形,如下图,导致计算的相似度存在问题。2.问题分析为什么Bert词向量会呈现圆锥形的空间分布且高频词更靠近原点?查了一些论文发现,除了这篇ICLR2019的论文《RepresentationDegenerationProblemi

【NLP 系列】Bert 词向量的空间分布

作者:京东零售彭馨1.背景我们知道Bert预训练模型针对分词、ner、文本分类等下游任务取得了很好的效果,但在语义相似度任务上,表现相较于Word2Vec、Glove等并没有明显的提升。有学者研究发现,这是因为Bert词向量存在各向异性(不同方向表现出的特征不一致),高频词分布在狭小的区域,靠近原点,低频词训练不充分,分布相对稀疏,远离原点,词向量整体的空间分布呈现锥形,如下图,导致计算的相似度存在问题。2.问题分析为什么Bert词向量会呈现圆锥形的空间分布且高频词更靠近原点?查了一些论文发现,除了这篇ICLR2019的论文《RepresentationDegenerationProblemi

从BERT到ChatGPT,百页综述梳理预训练大模型演变史

所有的成功都有迹可循,ChatGPT也不例外。前不久,因为对ChatGPT的评价过于苛刻,图灵奖得主YannLeCun被送上了热搜。在他看来,「就底层技术而言,ChatGPT并没有什么特别的创新,」也不是「什么革命性的东西」。许多研究实验室正在使用同样的技术,开展同样的工作。更重要的是,ChatGPT及其背后的GPT-3在很多方面都是由多方多年来开发的多种技术组成的,是不同的人数十年贡献的结果。因此,LeCun认为,与其说ChatGPT是一个科学突破,不如说它是一个像样的工程实例。「ChatGPT是否具有革命性」是个充满争议的话题。但毋庸置疑,它确实是在此前积累的多项技术的基础上构建起来的,比

从BERT到ChatGPT,百页综述梳理预训练大模型演变史

所有的成功都有迹可循,ChatGPT也不例外。前不久,因为对ChatGPT的评价过于苛刻,图灵奖得主YannLeCun被送上了热搜。在他看来,「就底层技术而言,ChatGPT并没有什么特别的创新,」也不是「什么革命性的东西」。许多研究实验室正在使用同样的技术,开展同样的工作。更重要的是,ChatGPT及其背后的GPT-3在很多方面都是由多方多年来开发的多种技术组成的,是不同的人数十年贡献的结果。因此,LeCun认为,与其说ChatGPT是一个科学突破,不如说它是一个像样的工程实例。「ChatGPT是否具有革命性」是个充满争议的话题。但毋庸置疑,它确实是在此前积累的多项技术的基础上构建起来的,比

4万字50余图3个实战示例一网打尽Transformer

各位朋友大家好,欢迎来到月来客栈。今天要和大家介绍的一篇论文是谷歌2017年所发表的一篇论文,名字叫做”Attentionisallyouneed“[1]。以下为文章目录,大家可以快速定位到自己关注部分的内容。1.多头注意力机制原理1.1动机虽然,网上已经有了大量的关于这篇论文的解析,不过好菜不怕晚笔者在这里也会谈谈自己对于它的理解以及运用。按照我们一贯解读论文的顺序,首先让我们先一起来看看作者当时为什么要提出Transformer这个模型?需要解决什么样的问题?现在的模型有什么样的缺陷?1.1.1面临问题在论文的摘要部分作者提到,现在主流的序列模型都是基于复杂的循环神经网络或者是卷积神经网络