深入理解ECAPA-TDNN——兼谈Res2Net、ASP统计池化、SENet、Batch Normalization

DEDSEC_Roger 2023-04-15 原文

概述

ECAPA-TDNN是说话人识别中基于TDNN的神经网络，是目前最好的单体模型之一
关于TDNN，可以参考深入理解TDNN（Time Delay Neural Network）——兼谈x-vector网络结构

ECAPA-TDNN

TDNN本质上是1维卷积，而且常常是1维膨胀卷积，这样的一种结构非常注重context，也就是上下文信息，具体而言，是在frame-level的变换中，更多地利用相邻frame的信息，甚至跳过 $t - 1, t + 1$ 的frame，而去对 $t - 2, t + 2$ 的frame进行连接
在ECAPA-TDNN中，更是进一步利用了膨胀卷积，出现了 $d i l a t i o n = 2, 3, 4$ 的情况。此外，还引入了Res2Net，从而获得了多尺度的context，所谓多尺度，指的是各种大小的感受野
1维膨胀卷积已经在深入理解TDNN（Time Delay Neural Network）——兼谈x-vector网络结构中讲解清楚，下面先介绍Res2Net

Res2Net

经典的ResNet结构如下左图所示，先用 $\text{-} size=1 \times 1$ 的卷积运算，相当于只针对每个像素点的特征通道进行变换，而不关注该像素点的任何邻近像素，并且是降低特征通道的，所以也被叫做Bottleneck，就好像将可乐从瓶口倒出来，如果是增加特征通道，那么就叫Inverted Bottleneck
$1\times1$ 卷积后，会经过 $3\times3$ 卷积，通常不改变特征通道，如果不需要在最后加上残差连接，那么 $s t r i d e = 2$ ，特征图的分辨率会被下采样，如果需要在最后加上残差连接，那么 $s t r i d e = 1$ ，保持特征图分辨率不变
最后还会有一个 $1\times1$ 卷积，目的是复原每个像素点的特征通道，使其等于输入时的特征通道，从而能够进行残差连接。整个Bottleneck block形似一个沙漏，中间是窄的（特征通道少），两边是宽的（特征通道多）
而Res2Net则是在中间的 $3\times3$ 卷积进行的微创新，首先将 $1\times1$ 卷积后的特征图，按照特征通道数进行平分，得到 $sc a l e$ 个相同的特征图（这里的 $sc a l e$ 是“尺度”的意思，Res2Net的作用就是多尺度特征，一语双关）
第一个特征图保留，不进行变换，这是对前一层特征的复用，同时也降低了参数量和计算量。从第二个特征图开始，都进行 $3\times3$ 卷积，并且当前特征图的卷积结果，会与后一个特征图进行残差连接（逐元素相加），然后，后一个特征图再进行 $3\times3$ 卷积
卷积中有一个概念叫感受野，是指当前特征图上的像素点，由之前某一个特征图在多大的分辨率下进行卷积得到的。如下图所示， $d i l a t i o n = 1$ 的 $3\times3$ 卷积，其输出特征图的每一个像素点的感受野都是 $3\times3$ ，再进行 $d i l a t i o n = 1$ 的 $3\times3$ 卷积，其输出特征图的每一个像素点的感受野都是 $5\times5$
因此Res2Net中，第二个特征图的感受野为 $3\times3$ ，第三个特征图的感受野为 $5\times5+3\times3$ ，第四个特征图的感受野为 $7\times7+5\times5+3\times3$ ，以此类推，从而得到多尺度特征
所有的卷积结果都会按照特征通道进行串联（concatenate），由于第一个特征图保留，不进行变换，所以后续的特征图维度必须与第一个特征图相同，因此 $3\times3$ 卷积不改变特征通道和分辨率
最后的 $1\times1$ 卷积，目的是复原每个像素点的特征通道，使其等于输入时的特征通道，从而能够进行残差连接
Res2Net可以作为一个即插即用的结构，插入到现有的其他神经网络中，还可以与其他即插即用的结构一起工作，比如SENet和ResNeXt

SENet

SENet（Squeeze-and-Excitation Networks）是现代卷积神经网络所必备的结构，性能提升明显，计算量不大。基本思路是将一个特征图的每个特征通道，都映射成一个值（常用全局平均池化，即取该特征通道的均值，代表该通道），从而特征图会映射为一个向量，长度与特征通道数一致
之后，对向量进行FC（用1维卷积也行，等价的），输出长度为特征通道数的 $\frac{1}{r}$ ，然后经过激活函数ReLU，这个过程称为Squeeze（挤压）；再进行FC，输出长度与特征通道数一致，然后经过激活函数Sigmoid，这个过程称为Excitation（激励）；此时输出向量的每一个值，范围都是 $(0, 1)$ ，最后用输出向量的每一个值，对输入特征图的对应通道进行加权，这个过程称为Scale（伸缩）
SENet的结构相当于对特征图的特征通道进行加权，因为每个特征通道的重要性是不一样的，所以让神经网络自行学习每个特征通道的权重，因此是一种Attention机制。并且输入特征图和输出特征图的维度完全一致，从而可以作为一个即插即用的结构，下面是Res2Net与SENet结合得到的结构，被称为SE-Res2Net
Res2Net还可以与ResNeXt结合，其实就是将中间的 $3\times3$ 卷积换成 $3\times3$ 分组卷积，不过ECAPA-TDNN中没有用到，就不再赘述了，接下来介绍ECAPA-TDNN的具体设计

回到ECAPA-TDNN

在ECAPA-TDNN中所用的Res2Net，是上述结构中的2维卷积全部换成1维卷积，采用的中间 $k = 3$ 卷积（1维卷积，不能用 $3\times3$ 表示，以下都用 $k = 3$ 代替）为膨胀卷积，并且随着网络深度增加， $d i l a t i o n$ 分别为 $2, 3, 4$ 。ECAPA-TDNN的结构图如下，SE-Res2Block后面括号内的参数，指的是Res2Block的中间 $k = 3$ 卷积的参数
SE-Res2Block的内部，如下图所示，夹着Res2的两个CRB（Conv1D+ReLU+BN）结构的参数为 $(k = 1, d = 1)$ ，中间的Res2， $sc a l e = 8$ ，之后的运算与上述Res2Net一致，不过每个 $k = 3$ 卷积都是膨胀卷积，并且都会接ReLU和BN，从而形成Res2 Dilated Conv1D+ReLU+BN的结构
最后的SE-Block是在特征维度进行的，也就是将T个frame的特征，在每个特征维度求平均，得到的向量，长度与特征维度一致，之后的运算与上述SENet一致
之前提到ResNet结构是沙漏型的，但是ECAPA-TDNN的frame-level变换中的ResNet结构，除了Res2会把特征维度进行平分外，其余的运算都没有发生特征维度的变化，关于frame-level变换，详见深入理解TDNN（Time Delay Neural Network）——兼谈x-vector网络结构。ECAPA-TDNN有两个版本，主要区别就在于frame-level的变换中，特征维度是512还是1024
frame-level变换之后，则是统计池化（Statistics Pooling），ECAPA-TDNN采用了ASP作为统计池化层，并且还进行了一些改进

ASP

ASP（Attentive Statistics Pooling）是2018年提出的，至今仍然广为使用的带有Attention的统计池化层，直到2022年才出现竞争对手（一种带有Multi-head Attention的统计池化）
ECAPA-TDNN中对ASP进行了改进，首先将之前3个SE-Res2Block的输出，按照特征维度进行串联，假设frame-level变换中的特征维度是512，由于3个SE-Res2Block的输出维度都是 $(b s, 512, T)$ ，所以串联之后是 $(b s, 512 * 3, T)$ ，之后经过一个CRB结构，输出维度固定为 $(b s, 1536, T)$ ，即便frame-level的特征维度是1024，该CRB的输出维度也不变。如下图所示
对特征图 $(b s, 1536, T)$ ，记为h，按照T维度计算每个特征维度的均值和标准差，如上图的TSTP公式所示（符号 $\odot$ 表示哈达玛积，即对应项相乘，两个因子的维度必须相同，从而结果的维度与因子的维度也相同），从而T维度消失，得到的均值和标准差维度均为 $(b s, 1536)$
之后的操作很神奇，将均值在T维度重复堆叠T次，维度恢复为 $(b s, 1536, T)$ ，对标准差也是堆叠，维度恢复为 $(b s, 1536, T)$ ，接着将特征图、均值和标准差在特征维度进行串联，得到的特征图维度为 $(b s, 1536 * 3, T)$ ，记为H
对H进行1维卷积，等价于上图的 $W\times H+b$ ，目的是将每个frame的特征从1536*3维降维映射到F维，F可取128，然后经过tanh激活函数，得到特征图a，维度为 $(b s, F, T)$
对a进行1维卷积，等价于上图的 $V\times a+k$ ，目的是将每个frame的特征从F维恢复映射到与h相同的维度，即1536，然后在T维度，进行softmax激活，得到特征图a，维度为 $(b s, 1536, T)$
此时的特征图a的每一行特征，在T维度上求和，都等于1，这是softmax激活的效果，又因为与h的维度相同，所以可以将a视为一种Attention分数，利用上图的ASTP公式，对h求基于Attention的均值和标准差，关于Attention分数，可以参考深入理解Self-attention（自注意力机制）
基于Attention的均值和标准差，维度都为 $(b s, 1536)$ ，再将它们按照特征维度进行串联，得到ASP最终的输出，维度为 $(b s, 1536 * 2)$ ，在ECAPA-TDNN中，ASP之后还会接一个BN

BN

这一节是讲BN（Batch Normalization）的，可能观众会感觉我太啰嗦了，怎么连BN都要讲，主要是ECAPA-TDNN是一个完全的TDNN结构，连BN都是1维的，所以怕大家一下子转不过来弯，下面主要讲解1维BN，自认对BN滚瓜烂熟的观众，可跳过本节
$\text{-} features, eps=1e-05, momentum=0.1, affine=True, track \text{-} running \text{-} stats=True, device=None, dtype=None)$
BN中的 $\text{-} features$ 是理解BN的关键，对于图像任务， $\text{-} features$ 要等于输入特征图的通道数，而对于音频任务， $\text{-} features$ 要等于 $(b s, F, T)$ 中的F
也就是说，BN必然是作用于图像的特征图通道，或者音频中frame的每个特征的， $\text{-} features$ 是告诉BN，均值和标准差，这两个向量的长度
BN计算均值和标准差的操作，与上述ASP的第一步，计算h_mean和h_std是类似的，不过计算的范围是在一个batch中
$\begin{aligned} \mu_B &= \frac{1}{bs*T} \sum_{t}^{bs*T} h_t \\ \sigma_B^2 &= \frac{1}{bs*T} \sum_{t}^{bs*T} (h_t - \mu)^2 \end{aligned}$
得到一个batch的统计量后，BN的输出也就确定了，不过需要先将 $\mu_B$ 和 $\sigma_B^2$ 重复堆叠成 $(b s, F, T)$ 的大小，与输入BN的特征图H的维度相同，才能让其与H进行运算。在训练时，BN的输出
$y_{training}=\gamma * \frac{H-\mu_B}{\sqrt{\sigma_B^2+\epsilon}} +\beta$
其中
- $\epsilon$ 是用于稳定计算的，可取 $10^{-5}$
- $\gamma$ 和 $\beta$ 是两个可学习参数，用于将输出进行伸缩和平移，提高模型的表达能力
此外，BN内部还有两个用于估计全局统计量的均值和标准差向量，在训练时，这两个向量根据每个batch的统计量进行更新，在测试时，BN会采用全局统计量对特征图进行规范化
$\begin{aligned} \mu_{sample}&=\mu_B \\ \sigma_{sample}^2&=\frac{bs*T}{bs*T-1} \sigma_B^2 \\ \mu_{running}&=(1-momentum)*\mu_{running}+momentum*\mu_{sample} \\ \sigma_{running}^2&=(1-momentum)*\sigma_{running}^2+momentum*\sigma_{sample}^2 \\ y_{evaluating}&=\gamma * \frac{H-\mu_{running}}{\sqrt{\sigma_{running}^2+\epsilon}} +\beta \end{aligned}$
其中
- 下标 $r u nnin g$ 表示采用移动平均（running average）的方法对全局统计量进行估计
- 系数 $m o m e n t u m$ 是对当前batch的统计量的权重，可取 $0.1$

尾声

在ASP+BN之后，接FC+BN，得到嵌入码，长度是192，最后接损失函数即可
总结一下ECAPA-TDNN的改进
- 对ASP进行了改进
- 引进了SE-Res2Block
- 将多层特征聚合（原文中称为Multi-layer feature aggregation），再送入统计池化层
- 最后一点，也是有争议的一点改进，原文中称为Multi-layer feature summation，也就是在frame-level的变换中
  - frame-layer2（第二个SE-Res2Block）的输入是frame-layer1（第一个SE-Res2Block）和frame-layer0（第一个CRB）的逐元素相加
  - frame-layer3（第三个SE-Res2Block）的输入是frame-layer2、frame-layer1以及frame-layer0的逐元素相加
  - 实验结果是下图中的C.3，可以看到，如果没有Multi-layer feature summation，EER升高了，但是minDCF降低了，由于VoxSRC是以minDCF作为最终性能指标的，所以Multi-layer feature summation没有在一些开源代码中被实现

有关深入理解ECAPA-TDNN——兼谈Res2Net、ASP统计池化、SENet、Batch Normalization的更多相关文章

ruby - 在 ASP 页面上 Mechanize 中断 - 2
require'mechanize'agent=Mechanize.newlogin=agent.get('http://www.schoolnet.ch/DE/HomeDE.htm')agent.clicklogin.link_withtext:/Login/然后我得到Mechanize::UnsupportedSchemeError。最佳答案 Mechanize不支持javascript但您可以将搜索字段添加到表单并为其分配搜索词并使用mechanize提交表单form=page.forms.firstform.add_fie
ChatGPT教程之深入了解魔术背后的技术 - 2
解开谜团：深入探索ChatGPT的技术奇迹。ChatGpt无处不在，无论是在播客、博客、YouTube还是社交媒体上。当我注意到这项新技术如此受欢迎时，我决定试一试，我被震惊了！有很多关于ChatGpt及其魔力的博客，但在这篇博客中，我将深入探讨其内部技术及其工作原理！ChatGpt简介根据OpenAI，ChatGpt被描述为：“我们训练了一个名为ChatGpt的模型，它以对话方式进行交互。对话格式使ChatGpt可以回答后续问题、承认错误、挑战不正确的前提并拒绝不适当的请求。ChatGPT是InstructGPT的兄弟模型，它经过训练可以按照提示中的说明进行操作并提供详细的响应。”OpenA
asp.net - 在 Ruby 中重新实现 ASP.NET 成员资格和用户密码哈希 - 2
我有一个大型用户数据库(约200,000个)，我正在将其从ASP.NET应用程序转移到RubyonRails应用程序。我真的不想要求每个用户重置他们的密码，所以我试图在Ruby中重新实现C#密码哈希函数。旧函数是这样的:publicstringEncodePassword(stringpass,stringsaltBase64){byte[]bytes=Encoding.Unicode.GetBytes(pass);byte[]src=Convert.FromBase64String(saltBase64);byte[]dst=newbyte[src.Length+bytes.Leng
科大讯飞刘聪：由ChatGPT浪潮引发的深入思考与落地展望 - 2
近期，以“生成式人工智能”（GenerativeAI）为核心技术的聊天机器人ChatGPT火爆全球。百度、阿里巴巴、科大讯飞、360等国内企业纷纷抛出ChatGPT相关进展，打造中国版的ChatGPT。科大讯飞此前在投资者互动平台表示，ChatGPT主要涉及到自然语言处理相关技术，属于认知智能领域的应用之一，公司在该方向技术和应用具备长期深厚的积累。并称2022年12月已进一步启动生成式预训练大模型任务攻关，类ChatGPT技术将在今年5月率先落地科大讯飞AI学习机产品。近日，科大讯飞副总裁、研究院执行院长刘聪围绕什么是ChatGPT，它强在哪里？会对未来世界带来哪些颠覆性影响？进一步阐述Ch
深入理解C++中的move和forward！ - 2
导语 | 在C++11标准之前，C++中默认的传值类型均为Copy语义，即：不论是指针类型还是值类型，都将会在进行函数调用时被完整的复制一份！对于非指针而言，开销及其巨大！因此在C++11以后，引入了右值和Move语义，极大地提高了效率。本文介绍了在此场景下两个常用的标准库函数：move和forward。一、特性背景（一）Copy语义简述C++中默认为Copy语义，因此存在大量开销。以下面的代码为例：0_copy_semantics.cc#include#includeclassObject{public:Object(){std::coutv;v.push_back(obj);}最终的输出
asp.net - IronRuby 死了吗？ - 2
我是.Net程序员，希望扩展并可能在我当前和future的Web应用程序中使用一些Ruby。看着IronRubyWebsite最后一次发布是将近一年前:2011年3月13日。否announcements从那时起就已经在他们的网站上制作了。考虑到所有这些，我想到了几个问题:IronRuby死了吗？如果该项目已终止，是否有任何替代方案集成到.Net中？如果它还活着，它仍然是一个积极维护的项目吗？我在哪里可以找到最新版本？我是不是找错了树？我是否应该将ruby保留为ruby，将.Net保留为.Net，这两个独立的实体永远不会在同一个项目中相遇？我在stackoverflow上看到过有
深入理解Linux文件系统与日志分析 - 2
目录引言：一、inode和block1、inode和block概述2、inode的内容1.inode包含文件的元信息（文件属性）2.用stat命令可以查看某个文件的inode信息3.Linux系统文件三个主要的时间属性 4.目录文件的结构3、inode的号码5、硬盘分区后的结构6、inode的大小7、inode的特殊作用二、链接文件三、案例:恢复EXT类型的文件四、案例:恢复XFS类型的文件五、日志文件1.日志的功能2.日志文件的分类3.日志保存位置1.常见的一些日志文件:2.扩展：日志检查3.小结：4.日志消息的级别5.用户日志分析六、总结引言：inode是一个重要概念，是理解Uni
javascript - 如何将数据从 ASP.NET WebForms 传递到 Aurelia Global Scope - 2
我正在从基于Web表单的遗留应用程序引导Aurelia。我的身份验证相关信息在自定义基页类的Web表单应用程序中维护。我如何将此身份验证信息传递和维护到Aurelia的全局范围？这样我就可以在使用路由构建菜单时使用它来根据用户/Angular色显示/隐藏某些菜单项？最佳答案您可以将逻辑添加到您的自定义基页中以添加标记到文档的头部，使所有信息都可用于javascript应用程序:...window.appInfo={user:'foo',bar:'baz'};...然后在您的aurelia应用中，您可以根据需要访问此信息:expo
javascript - 为什么 ASP.NET 在 IE7 中导致 "Operation Aborted"错误？ - 2
我已经阅读了很多博客文章，其中提供了IE中“操作中止”错误的原因和解决方案。我最近构建了一个应用程序，有时会为某些用户出现此错误。让我详细解释一下。该应用程序是在VS2008中构建的.NET2.0、ASP.NET和C#Web应用程序。它使用ComponentOneWeb控件以及标准的VisualStudio控件。在其中一个网页中，我让用户在一组ComponentOneWeb输入控件中键入输入，然后将其添加到集合中。集合绑定(bind)到中继器，每次在集合中创建新条目时，中继器都会反弹。如果用户从转发器中删除条目(使用命令按钮)，集合将更新并重新回到转发器。当应用程序提交给最终用户进行测
ASP.NET - 使用 jQuery 处理基于 JSON 的 Web 服务的正确方法是什么？ - 2
将基于ASP.NETSOAP的Web服务转换为基于JSON的响应的正确方法是什么？...然后从jQuery中调用它们？集成基于jQuery的AJAX和ASP.NET时的“最佳实践”是什么？文章？书？最佳答案可以使用System.Runtime.Serialization和System.Runtime.Serialization.JSON将JSON转换为.NET类。我怀疑您对设置从客户端到服务器的函数调用更感兴趣。我觉得值得一试thistutorial.在本教程中，您需要添加一个网络服务“.asmx”文件。在asmx文件中，您将能

深入理解ECAPA-TDNN——兼谈Res2Net、ASP统计池化、SENet、Batch Normalization

概述

ECAPA-TDNN

Res2Net

SENet

回到ECAPA-TDNN

ASP

BN

尾声

有关深入理解ECAPA-TDNN——兼谈Res2Net、ASP统计池化、SENet、Batch Normalization的更多相关文章

随机推荐