【NLP 系列】Bert 词向量的空间分布

Jcloud 2023-03-28 原文

作者：京东零售彭馨

1. 背景

我们知道Bert 预训练模型针对分词、ner、文本分类等下游任务取得了很好的效果，但在语义相似度任务上，表现相较于 Word2Vec、Glove 等并没有明显的提升。有学者研究发现，这是因为 Bert 词向量存在各向异性（不同方向表现出的特征不一致），高频词分布在狭小的区域，靠近原点，低频词训练不充分，分布相对稀疏，远离原点，词向量整体的空间分布呈现锥形，如下图，导致计算的相似度存在问题。

2. 问题分析

为什么Bert词向量会呈现圆锥形的空间分布且高频词更靠近原点？

查了一些论文发现，除了这篇 ICLR 2019 的论文《Representation Degeneration Problem in Training Natural Language Generation Models》给出了一定的理论解释，几乎所有提及到 Bert 词向量空间分布存在问题的论文，都只是在引用该篇的基础上，直接将词向量压缩到二维平面上进行观测统计（肉眼看的说服力明显不够?）

图中（b）（c）可以看出原生 Word2Vec 和分类任务的词向量经 SVD 投影，分布在原点周围，而原生 Transformer 则分布在圆锥形区域，且任意两个词向量都正相关，会降低模型性能，这种现象被称为表征退化问题。

①造成这种现象的直观解释是：在模型训练过程中，真词的embedding会被推向隐藏状态的方向，而其他词会被推向其负方向，结果是词汇表中大多数单词的嵌入将被推向与大多数隐藏状态负相关的相似方向，因此在嵌入空间的局部区域中聚集在一起。
②理论解释则是分析未出现词的嵌入，发现表征退化和隐藏状态的结构有关：当隐藏状态的凸包不包含原点时，退化出现，并且当使用层归一化进行训练时，很可能发生这种情况。并发现低频词很可能在优化过程中被训练为彼此接近，因此位于局部区域。

论文将对理论解释部分给出证明，下面从我的理解，来解读一下?，最后再简单说一下另外两篇对 Bert 词向量观测统计的论文。

3. 理论解释

在介绍之前，先熟悉几个关于凸优化问题的概念（不知道其实也问题不大?）：

凸集：

凸包：
点集Q的凸包是指一个最小凸多边形，满足Q中的点或者在多边形边上或者在其内。（最小的凸集）

锥：

凸锥：
如果一个集合既是锥，又是凸集，则该集合是凸锥。

1）未出现词

因为不容易直接分析高、低频词，作者另辟蹊径，选择和低频词比较相似的未出现词来分析目标函数。

因为其他参数固定，则上式等价于：

文中说定理1 中的 A 显而易见，那就只能大家自行理解这个凸集了。B 则是对上面最小化公式的求解，下面给出证明

证明：

以上还是很好理解的，定理1说明未出现词的向量会被优化无穷远，远离原点（模越来越大）。定理2则是说明词向量的分布不包含原点，而是在原点的一侧

2）低频词

低频词的分析则是在未出现词的基础上，因为分析低频词的embedding对损失函数的影响，将损失函数分为了两部分：

总损失函数为：

原来定理3 才是理解路上的最大绊脚石！

下面简述一下对词向量进行观测统计的论文

论文1《On the Sentence Embeddings from Pre-trained Language Models》

其实这篇论文就是字节的 Bert-flow（不熟悉 Bert-flow 可见《对比学习——文本匹配》）。论文计算了词嵌入与原点的平均l2距离，并根据词频做了排序（词频越高排名越靠前，第0位词频最高），得出高频词靠近原点、低频词远离原点的结论，如下表上半部分：

表的下半部分则为词嵌入和它的k个近邻之间的平均l2距离和点积，可以看出低频词相较于高频词，和它们的k近邻距离更远，说明低频词相对高频词分布更稀疏。

论文2《Learning to Remove: Towards Isotropic Pre-trained BERT Embedding》

该论文则是通过随机计算两个词的相似度，发现都远大于0（说明词向量的方向基本都一致，不一致不会都远大于0），以此说明词向量不是均匀分布在向量空间中，而是分布在一个狭窄的圆锥体中。

4. 总结

都有理论解释了，结论自然就是 Bert 词向量确实存在表征退化问题，词向量存在各向异性，高频词距离原点更近，低频词训练不充分，远离原点，整体分布呈现圆锥形，导致其不适用于语义相似度任务。不过不知道该理论解释有没有说服你???，有不同见解或疑问，欢迎前来交流。
针对此类问题，可以采用一下方法对其进行纠正，如论文[1]中加入cos正则，论文[2]中将锥形分布转化为高斯分布。因为词向量有问题，句向量自然跑不了，所以《对比学习——文本匹配》中的算法其实也都是为了解决这个问题。

附：（定理3证明）

有关【NLP 系列】Bert 词向量的空间分布的更多相关文章

python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby-on-rails - 使用一系列等级计算字母等级 - 2
这里是Ruby新手。完成一些练习后碰壁了。练习:计算一系列成绩的字母等级创建一个方法get_grade来接受测试分数数组。数组中的每个分数应介于0和100之间，其中100是最大分数。计算平均分并将字母等级作为字符串返回，即“A”、“B”、“C”、“D”、“E”或“F”。我一直返回错误:avg.rb:1:syntaxerror,unexpectedtLBRACK,expecting')'defget_grade([100,90,80])^avg.rb:1:syntaxerror,unexpected')',expecting$end这是我目前所拥有的。我想坚持使用下面的方法或.join，
ruby - 分布式事务和队列，ruby，erlang，scala - 2
我有一个涉及多台机器、消息队列和事务的问题。因此，例如用户点击网页，点击将消息发送到另一台机器，该机器将付款添加到用户的帐户。每秒可能有数千次点击。事务的所有方面都应该是容错的。我以前从未遇到过这样的事情，但一些阅读表明这是一个众所周知的问题。所以我的问题。我假设安全的方法是使用两阶段提交，但协议(protocol)是阻塞的，所以我不会获得所需的性能，我是否正确？我通常写Ruby，但似乎Redis之类的数据库和Rescue、RabbitMQ等消息队列系统对我的帮助不大——即使我实现某种两阶段提交，如果Redis崩溃，数据也会丢失，因为它本质上只是内存。所有这些让我开始关注erlang和
【鸿蒙应用开发系列】- 获取系统设备信息以及版本API兼容调用方式 - 2
在应用开发中，有时候我们需要获取系统的设备信息，用于数据上报和行为分析。那在鸿蒙系统中，我们应该怎么去获取设备的系统信息呢，比如说获取手机的系统版本号、手机的制造商、手机型号等数据。1、获取方式这里分为两种情况，一种是设备信息的获取，一种是系统信息的获取。1.1、获取设备信息获取设备信息，鸿蒙的SDK包为我们提供了DeviceInfo类，通过该类的一些静态方法，可以获取设备信息，DeviceInfo类的包路径为：ohos.system.DeviceInfo.具体的方法如下：ModifierandTypeMethodDescriptionstatic StringgetAbiList()Obt
ruby-on-rails - 从应用程序中自定义文件夹内的命名空间自动加载 - 2
我们目前正在为ROR3.2开发自定义cms引擎。在这个过程中，我们希望成为我们的rails应用程序中的一等公民的几个类类型起源，这意味着它们应该驻留在应用程序的app文件夹下，它是插件。目前我们有以下类型:数据源数据类型查看我在app文件夹下创建了多个目录来保存这些:应用/数据源应用/数据类型应用/View更多类型将随之而来，我有点担心应用程序文件夹被这么多目录污染。因此，我想将它们移动到一个子目录/模块中，该子目录/模块包含cms定义的所有类型。所有类都应位于MyCms命名空间内，目录布局应如下所示:应用程序/my_cms/data_source应用程序/my_cms/data_ty
阿里云RDS——产品系列概述 - 2
基础版云数据库RDS的产品系列包括基础版、高可用版、集群版、三节点企业版，本文介绍基础版实例的相关信息。RDS基础版实例也称为单机版实例，只有单个数据库节点，计算与存储分离，性价比超高。说明RDS基础版实例只有一个数据库节点，没有备节点作为热备份，因此当该节点意外宕机或者执行重启实例、变更配置、版本升级等任务时，会出现较长时间的不可用。如果业务对数据库的可用性要求较高，不建议使用基础版实例，可选择其他系列（如高可用版），部分基础版实例也支持升级为高可用版。基础版与高可用版的对比拓扑图如下所示。优势性能由于不提供备节点，主节点不会因为实时的数据库复制而产生额外的性能开销，因此基础版的性能相对于
ruby - 从结束值创建一系列字符串 - 2
我使用irb。下面是我写的代码。“斧头”..“bc”我期待"ax""ay""az""ba"bb""bc"但结果只是“斧头”..“bc”我该如何纠正？谢谢。最佳答案 >puts("ax".."bc").to_aaxayazbabbbc 关于ruby-从结束值创建一系列字符串，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/7617092/
ruby-on-rails - 用一系列时间增量填充选择，加上其他选项 - 2
使用RubyonRails，我使用给定的增量(例如每30分钟)用时间填充“选择”。目前我正在YAML文件中写出所有的可能性，但我觉得有一种更巧妙的方法。我想我想提供一个开始时间、一个结束时间、一个增量，并且目前只提供一个名为“关闭”的选项(想想“business_hours”)。所以，我的选择可能会显示:'Closed'5:00am5:30am6:00am...[allthewayto]...11:30pm谁能想出更好的方法，或者只是将它们全部“拼写”出来的最佳方法？最佳答案此答案基于@emh的答案。defcreate_hour
ruby 认为我在引用一个顶级常量，即使我指定了完整的命名空间 - 2
在我的应用程序中我有classUserincludeUser::FooendUser::Foo定义在app/models/user/foo.rb现在我正在使用一个定义了自己的Foo类的库。我收到此错误:warning:toplevelconstantFooreferencedbyUser::FooUser仅引用具有完整路径的Foo，User::Foo，而Foo实际上从来没有指的是Foo。这是怎么回事？更新:才想起我之前遇到过同样的问题，在问题1中看到这里:HowdoIrefertoasubmodule's"fullpath"inruby? 最佳答案
Ruby 命名空间与类还是模块？ - 2
考虑Ruby类Foo::Bar。惯例是将“Foo”命名空间作为一个模块，但它也可以很容易地作为一个类:moduleFoo;classBar;end;end对比:classFoo;classBar;end;end在第二种情况下，Bar不是Foo的内部类，它只是在Foo的单例上定义的另一个常量。在这两种情况下，父类(superclass)都是Object并且它们只包含Kernel模块。它们的祖先链是相同的。因此，除了您可以根据其类使用Foo进行的操作(如果是类则实例化，如果是模块则扩展/包含)，命名空间的性质是否对有任何影响酒吧？是否有令人信服的理由选择其中一个名称间距而不是另一个？我看到