详解Transformer中Self-Attention以及Multi-Head Attention

太阳花的小绿豆 2023-04-21 原文

原文名称：Attention Is All You Need
原文链接：https://arxiv.org/abs/1706.03762

如果不想看文章的可以看下我在b站上录的视频：https://b23.tv/gucpvt

最近Transformer在CV领域很火，Transformer是2017年Google在Computation and Language上发表的，当时主要是针对自然语言处理领域提出的（之前的RNN模型记忆长度有限且无法并行化，只有计算完 $t_i$ 时刻后的数据才能计算 $t_{i+1}$ 时刻的数据，但Transformer都可以做到）。在这篇文章中作者提出了Self-Attention的概念，然后在此基础上提出Multi-Head Attention，所以本文对Self-Attention以及Multi-Head Attention的理论进行详细的讲解。在阅读本文之前，建议大家先去看下李弘毅老师讲的Transformer的内容。本文的内容是基于李宏毅老师讲的内容加上自己阅读一些源码进行的总结。

文章目录

前言

如果之前你有在网上找过self-attention或者transformer的相关资料，基本上都是贴的原论文中的几张图以及公式，如下图，讲的都挺抽象的，反正就是看不懂（可能我太菜的原因）。就像李弘毅老师课程里讲到的"不懂的人再怎么看也不会懂的"。那接下来本文就结合李弘毅老师课上的内容加上原论文的公式来一个个进行详解。

Self-Attention

下面这个图是我自己画的，为了方便大家理解，假设输入的序列长度为2，输入就两个节点 $x_1, x_2$ ，然后通过Input Embedding也就是图中的 $f (x)$ 将输入映射到 $a_1, a_2$ 。紧接着分别将 $a_1, a_2$ 分别通过三个变换矩阵 $W_q, W_k, W_v$ （这三个参数是可训练的，是共享的）得到对应的 $q^i, k^i, v^i$ （这里在源码中是直接使用全连接层实现的，这里为了方便理解，忽略偏执）。

其中

$q$ 代表query，后续会去和每一个 $k$ 进行匹配
$k$ 代表key，后续会被每个 $q$ 匹配
$v$ 代表从 $a$ 中提取得到的信息
后续 $q$ 和 $k$ 匹配的过程可以理解成计算两者的相关性，相关性越大对应 $v$ 的权重也就越大

假设 $a_1=(1, 1), a_2=(1,0), W^q= \binom{1, 1}{0, 1}$ 那么：
$q^1 = (1, 1) \binom{1, 1}{0, 1} =(1, 2) , \ \ \ q^2 = (1, 0) \binom{1, 1}{0, 1} =(1, 1)$
前面有说Transformer是可以并行化的，所以可以直接写成：
$\binom{q^1}{q^2} = \binom{1, 1}{1, 0} \binom{1, 1}{0, 1} = \binom{1, 2}{1, 1}$
同理我们可以得到 $\binom{k^1}{k^2}$ 和 $\binom{v^1}{v^2}$ ，那么求得的 $\binom{q^1}{q^2}$ 就是原论文中的 $Q$ ， $\binom{k^1}{k^2}$ 就是 $K$ ， $\binom{v^1}{v^2}$ 就是 $V$ 。接着先拿 $q^1$ 和每个 $k$ 进行match，点乘操作，接着除以 $\sqrt{d}$ 得到对应的 $\alpha$ ，其中 $d$ 代表向量 $k^i$ 的长度，在本示例中等于2，除以 $\sqrt{d}$ 的原因在论文中的解释是“进行点乘后的数值很大，导致通过softmax后梯度变的很小”，所以通过除以 $\sqrt{d}$ 来进行缩放。比如计算 $\alpha_{1, i}$ ：
$\alpha_{1, 1} = \frac{q^1 \cdot k^1}{\sqrt{d}}=\frac{1\times 1+2\times 0}{\sqrt{2}}=0.71 \\ \alpha_{1, 2} = \frac{q^1 \cdot k^2}{\sqrt{d}}=\frac{1\times 0+2\times 1}{\sqrt{2}}=1.41$
同理拿 $q^2$ 去匹配所有的 $k$ 能得到 $\alpha_{2, i}$ ，统一写成矩阵乘法形式：
$\binom{\alpha_{1, 1} \ \ \alpha_{1, 2}}{\alpha_{2, 1} \ \ \alpha_{2, 2}}=\frac{\binom{q^1}{q^2}\binom{k^1}{k^2}^T}{\sqrt{d}}$
接着对每一行即 $(\alpha_{1, 1}, \alpha_{1, 2})$ 和 $(\alpha_{2, 1}, \alpha_{2, 2})$ 分别进行softmax处理得到 $(\hat\alpha_{1, 1}, \hat\alpha_{1, 2})$ 和 $(\hat\alpha_{2, 1}, \hat\alpha_{2, 2})$ ，这里的 $\hat{\alpha}$ 相当于计算得到针对每个 $v$ 的权重。到这我们就完成了 ${\rm Attention}(Q, K, V)$ 公式中 ${\rm softmax}(\frac{QK^T}{\sqrt{d_k}})$ 部分。

上面已经计算得到 $\alpha$ ，即针对每个 $v$ 的权重，接着进行加权得到最终结果：
$b_1 = \hat{\alpha}_{1, 1} \times v^1 + \hat{\alpha}_{1, 2} \times v^2=(0.33, 0.67) \\ b_2 = \hat{\alpha}_{2, 1} \times v^1 + \hat{\alpha}_{2, 2} \times v^2=(0.50, 0.50)$
统一写成矩阵乘法形式：
$\binom{b_1}{b_2} = \binom{\hat\alpha_{1, 1} \ \ \hat\alpha_{1, 2}}{\hat\alpha_{2, 1} \ \ \hat\alpha_{2, 2}}\binom{v^1}{v^2}$
到这，Self-Attention的内容就讲完了。总结下来就是论文中的一个公式：
${\rm Attention}(Q, K, V)={\rm softmax}(\frac{QK^T}{\sqrt{d_k}})V$

Multi-Head Attention

刚刚已经聊完了Self-Attention模块，接下来再来看看Multi-Head Attention模块，实际使用中基本使用的还是Multi-Head Attention模块。原论文中说使用多头注意力机制能够联合来自不同head部分学习到的信息。Multi-head attention allows the model to jointly attend to information from different representation subspaces at different positions.其实只要懂了Self-Attention模块Multi-Head Attention模块就非常简单了。

首先还是和Self-Attention模块一样将 $a_i$ 分别通过 $W^q, W^k, W^v$ 得到对应的 $q^i, k^i, v^i$ ，然后再根据使用的head的数目 $h$ 进一步把得到的 $q^i, k^i, v^i$ 均分成 $h$ 份。比如下图中假设 $h = 2$ 然后 $q^1$ 拆分成 $q^{1,1}$ 和 $q^{1,2}$ ，那么 $q^{1,1}$ 就属于head1， $q^{1,2}$ 属于head2。

看到这里，如果读过原论文的人肯定有疑问，论文中不是写的通过 $W^Q_i, W^K_i, W^V_i$ 映射得到每个head的 $Q_i, K_i, V_i$ 吗：
$head_i = {\rm Attention}(QW^Q_i, KW^K_i, VW^V_i)$
但我在github上看的一些源码中就是简单的进行均分，其实也可以将 $W^Q_i, W^K_i, W^V_i$ 设置成对应值来实现均分，比如下图中的Q通过 $W^Q_1$ 就能得到均分后的 $Q_1$ 。

通过上述方法就能得到每个 $head_i$ 对应的 $Q_i, K_i, V_i$ 参数，接下来针对每个head使用和Self-Attention中相同的方法即可得到对应的结果。
${\rm Attention}(Q_i, K_i, V_i)={\rm softmax}(\frac{Q_iK_i^T}{\sqrt{d_k}})V_i$

接着将每个head得到的结果进行concat拼接，比如下图中 $b_{1,1}$ （ $head_1$ 得到的 $b_1$ ）和 $b_{1,2}$ （ $head_2$ 得到的 $b_1$ ）拼接在一起， $b_{2,1}$ （ $head_1$ 得到的 $b_2$ ）和 $b_{2,2}$ （ $head_2$ 得到的 $b_2$ ）拼接在一起。

接着将拼接后的结果通过 $W^O$ （可学习的参数）进行融合，如下图所示，融合后得到最终的结果 $b_1, b_2$ 。

到这，Multi-Head Attention的内容就讲完了。总结下来就是论文中的两个公式：
${\rm MultiHead}(Q, K, V) = {\rm Concat(head_1,...,head_h)}W^O \\ {\rm where \ head_i = Attention}(QW_i^Q, KW_i^K, VW_i^V)$

Self-Attention与Multi-Head Attention计算量对比

在原论文章节3.2.2中最后有说两者的计算量其实差不多。Due to the reduced dimension of each head, the total computational cost is similar to that of single-head attention with full dimensionality.下面做了个简单的实验，这个model文件大家先忽略哪来的。这个Attention就是实现Multi-head Attention的方法，其中包括上面讲的所有步骤。

首先创建了一个Self-Attention模块（单头）a1，然后把proj变量置为Identity（Identity对应的是Multi-Head Attention中最后那个 $W^o$ 的映射，单头中是没有的，所以置为Identity即不做任何操作）。
再创建一个Multi-Head Attention模块（多头）a2，然后设置8个head。
创建一个随机变量，注意shape
使用fvcore分别计算两个模块的FLOPs

import torch
from fvcore.nn import FlopCountAnalysis

from model import Attention


def main():
    # Self-Attention
    a1 = Attention(dim=512, num_heads=1)
    a1.proj = torch.nn.Identity()  # remove Wo

    # Multi-Head Attention
    a2 = Attention(dim=512, num_heads=8)

    # [batch_size, num_tokens, total_embed_dim]
    t = (torch.rand(32, 1024, 512),)

    flops1 = FlopCountAnalysis(a1, t)
    print("Self-Attention FLOPs:", flops1.total())

    flops2 = FlopCountAnalysis(a2, t)
    print("Multi-Head Attention FLOPs:", flops2.total())


if __name__ == '__main__':
    main()

终端输出如下，可以发现确实两者的FLOPs差不多，Multi-Head Attention比Self-Attention略高一点：

Self-Attention FLOPs: 60129542144
Multi-Head Attention FLOPs: 68719476736

其实两者FLOPs的差异只是在最后的 $W^O$ 上，如果把Multi-Head Attentio的 $W^O$ 也删除（即把a2的proj也设置成Identity），可以看出两者FLOPs是一样的：

Self-Attention FLOPs: 60129542144
Multi-Head Attention FLOPs: 60129542144

Positional Encoding

如果仔细观察刚刚讲的Self-Attention和Multi-Head Attention模块，在计算中是没有考虑到位置信息的。假设在Self-Attention模块中，输入 $a_1, a_2, a_3$ 得到 $b_1, b_2, b_3$ 。对于 $a_1$ 而言， $a_2$ 和 $a_3$ 离它都是一样近的而且没有先后顺序。假设将输入的顺序改为 $a_1, a_3, a_2$ ，对结果 $b_1$ 是没有任何影响的。下面是使用Pytorch做的一个实验，首先使用nn.MultiheadAttention创建一个Self-Attention模块（num_heads=1），注意这里在正向传播过程中直接传入 $Q K V$ ，接着创建两个顺序不同的 $Q K V$ 变量t1和t2（主要是将 $q^2, k^2, v^2$ 和 $q^3, k^3, v^3$ 的顺序换了下），分别将这两个变量输入Self-Attention模块进行正向传播。

import torch
import torch.nn as nn


m = nn.MultiheadAttention(embed_dim=2, num_heads=1)

t1 = [[[1., 2.],   # q1, k1, v1
       [2., 3.],   # q2, k2, v2
       [3., 4.]]]  # q3, k3, v3

t2 = [[[1., 2.],   # q1, k1, v1
       [3., 4.],   # q3, k3, v3
       [2., 3.]]]  # q2, k2, v2

q, k, v = torch.as_tensor(t1), torch.as_tensor(t1), torch.as_tensor(t1)
print("result1: \n", m(q, k, v))

q, k, v = torch.as_tensor(t2), torch.as_tensor(t2), torch.as_tensor(t2)
print("result2: \n", m(q, k, v))

对比结果可以发现，即使调换了 $q^2, k^2, v^2$ 和 $q^3, k^3, v^3$ 的顺序，但对于 $b_1$ 是没有影响的。

为了引入位置信息，在原论文中引入了位置编码positional encodings。To this end, we add "positional encodings" to the input embeddings at the bottoms of the encoder and decoder stacks.如下图所示，位置编码是直接加在输入的 $a=\{a_1,...,a_n\}$ 中的，即 $pe=\{pe_1,...,pe_n\}$ 和 $a=\{a_1,...,a_n\}$ 拥有相同的维度大小。关于位置编码在原论文中有提出两种方案，一种是原论文中使用的固定编码，即论文中给出的sine and cosine functions方法，按照该方法可计算出位置编码；另一种是可训练的位置编码，作者说尝试了两种方法发现结果差不多（但在ViT论文中使用的是可训练的位置编码）。

超参对比

关于Transformer中的一些超参数的实验对比可以参考原论文的表3，如下图所示。其中：

N表示重复堆叠Transformer Block的次数
$d_{model}$ 表示Multi-Head Self-Attention输入输出的token维度（向量长度）
$d_{ff}$ 表示在MLP（feed forward）中隐层的节点个数
h表示Multi-Head Self-Attention中head的个数
$d_k, d_v$ 表示Multi-Head Self-Attention中每个head的key（K）以及query（Q）的维度
$P_{drop}$ 表示dropout层的drop_rate

到这，关于Self-Attention、Multi-Head Attention以及位置编码的内容就全部讲完了，如果有讲的不对的地方希望大家指出。

有关详解Transformer中Self-Attention以及Multi-Head Attention的更多相关文章

ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby 中生成它们？ - 2
我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%
【鸿蒙应用开发系列】- 获取系统设备信息以及版本API兼容调用方式 - 2
在应用开发中，有时候我们需要获取系统的设备信息，用于数据上报和行为分析。那在鸿蒙系统中，我们应该怎么去获取设备的系统信息呢，比如说获取手机的系统版本号、手机的制造商、手机型号等数据。1、获取方式这里分为两种情况，一种是设备信息的获取，一种是系统信息的获取。1.1、获取设备信息获取设备信息，鸿蒙的SDK包为我们提供了DeviceInfo类，通过该类的一些静态方法，可以获取设备信息，DeviceInfo类的包路径为：ohos.system.DeviceInfo.具体的方法如下：ModifierandTypeMethodDescriptionstatic StringgetAbiList()Obt
阿里云国际版免费试用：如何注册以及注意事项 - 2
作为新的阿里云用户，您可以50免费试用多种优惠，价值高达1,700美元（或8,500美元）。这将让您了解和体验阿里云平台上提供的一系列产品和服务。如果您以个人身份注册免费试用，您将获得价值1,700美元的优惠。但是，如果您是注册公司，您可以选择企业免费试用，提交基本信息通过企业实名注册验证，即可开始价值$8,500的免费试用！本教程介绍了如何设置您的帐户并使用您的免费试用版。关于免费试用在我们开始此试用之前，您还必须遵守以下条款和条件才能访问您的免费试用：只有在一年内创建的账户才有资格获得阿里云免费试用。通过此免费试用优惠，用户可以免费试用免费试用活动页面上列出的每种产品一次。如果您有多个帐
TimeSformer：抛弃CNN的Transformer视频理解框架 - 2
Transformers开始在视频识别领域的“猪突猛进”，各种改进和魔改层出不穷。由此作者将开启VideoTransformer系列的讲解，本篇主要介绍了FBAI团队的TimeSformer，这也是第一篇使用纯Transformer结构在视频识别上的文章。如果觉得有用，就请点赞、收藏、关注！paper:https://arxiv.org/abs/2102.05095code(offical):https://github.com/facebookresearch/TimeSformeraccept:ICML2021author:FacebookAI一、前言Transformers(VIT)在图
ruby-on-rails - 如何使用 ruby 从 self 方法调用另一个方法？ - 2
#app/models/product.rbclassProduct我从Controller调用方法1。当我运行程序时。我收到一个错误:method_missing(atlinemethod2(param2)).rbenv/versions/2.3.1/lib/ruby/gems/2.3.0/gems/activerecord-5.0.0/lib/active_record/relation/batches.rb:59:in`block(2levels)infind_each... 最佳答案 classProduct说明:第一个是类
ruby - 在参数为 `yield self` 的方法中使用 `&block` 和在没有参数 `yield self` 的方法中使用 `&block` 有什么区别吗？ - 2
我明白了defa(&block)block.call(self)end和defa()yieldselfend导致相同的结果，如果我假设有这样一个blocka{}。我的问题是-因为我偶然发现了一些这样的代码，它是否有任何区别或者是否有任何优势(如果我不使用变量/引用block):defa(&block)yieldselfend这是一个我不理解&block用法的具体案例:defrule(code,name,&block)@rules=[]if@rules.nil?@rules 最佳答案我能想到的唯一优点就是自省(introspecti
ruby - 从另一个私有(private)方法中使用 self.xxx() 调用私有(private)方法 xxx，导致错误 "private method ` xxx' called” - 2
我正在尝试获得良好的Ruby编码风格。为防止意外调用具有相同名称的局部变量，我总是在适当的地方使用self.。但是现在我偶然发现了这个:classMyClass上面的代码导致错误privatemethodsanitize_namecalled但是当删除self.并仅使用sanitize_name时，它会起作用。这是为什么？最佳答案发生这种情况是因为无法使用显式接收器调用私有(private)方法，并且说self.sanitize_name是显式指定应该接收sanitize_name的对象(self)，而不是依赖于隐式接收器(也是
ruby-on-rails - self 在 Rails 模型中的值(value)是什么？为什么没有明显的实例方法可用？ - 2
我的rails3.1.6应用程序中有一个自定义访问器方法，它为一个属性分配一个值，即使该值不存在。my_attr属性是一个序列化的哈希，除非为空白，否则应与给定值合并指定了值，在这种情况下，它将当前值设置为空值。(添加了检查以确保值是它们应该的值，但为简洁起见被删除，因为它们不是我的问题的一部分。)我的setter定义为:defmy_attr=(new_val)cur_val=read_attribute(:my_attr)#storecurrentvalue#makesureweareworkingwithahash,andresetvalueifablankvalueisgiven
ruby - 使用 ruby gem net-ssh-multi 同时在多个服务器上执行 sudo 命令 - 2
在previousquestion中我想出了如何在多个服务器上启动经过密码验证的sshsession来运行单个命令。现在我需要能够执行“sudo”命令。问题是，net-ssh-multi没有分配sudo需要运行的伪终端(pty)，导致以下错误:[127.0.0.1:stderr]sudo:sorry,youmusthaveattytorunsudo根据documentation,可以通过调用channel对象的方法来分配伪终端，但是，以下代码不起作用:它会生成上面的“notty”错误:require'net/ssh'require'net/ssh/multi'Net::SSH::Mul
ruby - ruby 中的同一个程序如何接受来自用户的输入以及命令行参数 - 2
我的ruby脚本从命令行参数获取某些输入。它检查是否缺少任何命令行参数，然后提示用户输入。但是我无法使用gets从用户那里获得输入。示例代码:test.rbname=""ARGV.eachdo|a|ifa.include?('-n')name=aputs"Argument:#{a}"endendifname==""puts"entername:"name=getsputsnameend运行脚本:rubytest.rbraghav-k错误结果:test.rb:6:in`gets':Nosuchfileordirectory-raghav-k(Errno::ENOENT)fromtes