Transformer在计算机视觉中的应用-VIT、TNT模型

老师我作业忘带了 2023-04-14 原文

上期介绍了Transformer的结构、特点和作用等方面的知识，回头看下来这一模型并不难，依旧是传统机器翻译模型中常见的seq2seq网络，里面加入了注意力机制，QKV矩阵的运算使得计算并行。

当然，最大的重点不是矩阵运算，而是注意力机制的出现。

一、CNN最大的问题是什么

CNN依旧是十分优秀的特征提取器，然而注意力机制的出现使得CNN隐含的一些问题显露了出来。

CNN中一个很重要的概念是感受野，一开始神经网络渐层的的卷积核中只能看到一些线条边角等信息，而后才能不断加大，看到一个小小的“面”，看到鼻子眼睛，再到后来看到整个头部。一方面的问题是：做到这些需要网络层数不断地加深(不考虑卷积核的大小)，感受野才会变大；另一方面的问题是：特征图所表达出来的信息往往是十分抽象的，我们不清楚到底需要多少层也不清楚每层的抽象信息是否都有用(ResNet出现)。

假设我们的脸贴在一幅画上，我们无法看出一幅画里都有什么； “管中窥豹”、“坐井观天”、“一叶障目” 等都是我们此时的感受野太小了；稍微抬下头，我们看到了画中的人；稍微站得远一步，我们看到了整幅画从脑中的经验得知，这是《清明上河图》。

上面这种情况是我们机械的从视野的角度去分辨看待事物，然而我们是人类，我们拥有注意力。

我们会在观察一张图片时会忽略背景，注意图片中的主体(或相反)

我们会在区分狮子还是老虎时，更注意看它们的毛发，它们的头上有没有“王”。

回想注意力机制的特点，它是从"整体"上观察我们需要什么，要注意的地方在哪里。既然是在整体上观察，那么其“感受野”，一定就相当于许多层之后的CNN了。

CNN许多层才做到的事情，在Transformer中第一层就做到了。

二、VIT整体架构解读

2.1 图像转换成序列

接下来就是该怎么做了，由于Transofrmer是序列到序列模型，我们需要把图像信息转为序列传给Encoder。

观察上图左下角，一个完整的图片，我们可以把它切割成9份(举例)，9个patch，每一份比如说是10x10x3的矩阵。将每一份通过一次卷积变成1x300的矩阵，由此变成序列。

如上图，9个300维的向量传递给Linear Projection of Flattened Patches层，其实就是一次全连接进行映射，把我们这些300维的向量映射成256/512维等的向量。

之后传递给Transformer Encoder。

2.2 VIT位置编码

我们上面把一张图片切成了9份，每份都有建筑物的一部分，要让计算机更好地识别出图片内容，这9份应当给它们加上序号，即位置编码。

论文实验证明，加上序号比不加效果好；以1-9为序号和以(1,1) (1,2) (1,3) (2,1)...(3,3)为序号结果相差不大。

当然，该论文进行的是分类任务，位置编码1D和2D确实没有太大区别。但如果放在分割等任务就不一定了。

2.3 VIT工作原理

可以看到，上图除了1-9以外，还存在一个序列0，我们把这个0叫做token。这个token一般只用于分类任务，而检测分割一般用不到。

以分类任务为例，无非是多了一行序列。

当把0号token+序列1-9传递给Encoder后，它内部进行QKV计算，和权重矩阵 $W^{Q}W^{K}W^{V}$ 计算转变为QKV矩阵继续计算。其本质就是0号token+序列1-9这10个序列点积，这样0号token中就是存储着序列1-9的特征9个patch的。如此经过L轮，经过L轮计算，0号token中的信息就是全局信息了。

之后，就可以使用0号token这个向量去做分类了。

2.4 backbone

如上，Embedded Patches+位置编码后经过层归一化，多头注意力，层归一化，全连接，期间还有这残差连接。

另外这不只是一轮，而是会执行多次。

三、Transformer为什么能

就像一中末尾说的那样，它是从"整体"上观察我们需要什么，要注意的地方在哪里。既然是在整体上观察，那么其“感受野”，一定就相当于许多层之后的CNN了。

因为0号token是最后拿去进行分类的，在计算时，第一层第一次的计算0号就分别于1-9patch进行了点积，这9个局部信息组成的整体便是这张图片。

上图可以看到，这样做在浅层就能获得较大的范围信息；可能5层就做得比CNN好了；全局信息丰富，更有助于理解图像。

四、VIT公式解读和效果图

E表示的是全连接，P²·C的矩阵映射为P²·D维。后面的则是位置编码，(N+1)·D维，N是N个patch，+1是因为前面所提的0号token。

Z是每层的输入，Z0就是第0层，记得加上位置编码。

然后就是进行多轮多头注意力机制的运算，MSA是多头注意力，LN是层归一化，MLP是全连接。后面的加法是残差连接。

最后输出结果。

效果图

其中ViT后面的16 14 32指的是patch的大小，对于一张图片来说，patch越大窗口数量越少，patch越小窗口数量越多。

显然与ResNet相比，ViT更好些。

五、TNT模型

5.1 TNT介绍

TNT：Transformer in Transformer

在VIT中，只针对patch进行了建模，比如一个patch是16*16*C (其中C是特征图个数，可能是256、512等)。每个patch可能有点大了，越大的patch所蕴含的信息就越多，学习起来难度就越大。

因此，一方面可以基于patch去做，另一方面还可以把patch再分得细一点，如16*16分成4个4*4。

所以TNT的名字就代表了它要做什么，在Transformer里嵌套一个Transformer。

5.2 TNT模型做法分析

TNT由外部Transformer和内部Transoformer组成，其中：

外部Transformer与VIT的做法一样

内部把每个patch组成多个超像素(4个像素点)，把重组的序列继续做Transformer。

以16*16为例，序列的长度就是256了，太长了太慢了效率低，且通常一个像素点也不能表达什么信息。至少也是4个点。因此内部将每个patch拆分成很多个4*4的小块，即分成更多个batch，然后重组。

以内部的一个16*16*3的patch为例，拆分成4*4的超像素，结果就是每一个超像素，每一个小patch上特征的个数。

$\frac{16*16*3}{4*4}=48$

之前一个点上有3个channel的信息，而现在一个点上有48个。patch变小了但浓缩了。

把这些小patch整合在一起，全连接，之后的Transformer与前面一样。

如上，每个patch经过外部Transformer计算得到向量，每个patch又拆分成小patch后全连接，经过内部Transformer得到同样维度的输出向量。两个向量加在一起，作为最后的输出结果。

5.4 TNT模型位置编码

实验证明，内外Transormer都进行位置编码效果更好。

5.5 TNT效果

上方是DeiT，就当作是VIT把，下面是TNT。

显而易见TNT特征提取得更鲜明，效果更好，更细腻。

右图可见TNT点更发散些，说明特征更发散些，更好区分。

有关Transformer在计算机视觉中的应用-VIT、TNT模型的更多相关文章

ruby - 如何从 ruby 中的字符串运行任意对象方法？ - 2
总的来说，我对ruby还比较陌生，我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础，我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
ruby - 其他文件中的 Rake 任务 - 2
我试图在一个项目中使用rake，如果我把所有东西都放到Rakefile中，它会很大并且很难读取/找到东西，所以我试着将每个命名空间放在lib/rake中它自己的文件中，我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题，但没有任务。我现在只有一个.rake文件作为测试，名为“servers.rake”，它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时
ruby-on-rails - Ruby net/ldap 模块中的内存泄漏 - 2
作为我的Rails应用程序的一部分，我编写了一个小导入程序，它从我们的LDAP系统中吸取数据并将其塞入一个用户表中。不幸的是，与LDAP相关的代码在遍历我们的32K用户时泄漏了大量内存，我一直无法弄清楚如何解决这个问题。这个问题似乎在某种程度上与LDAP库有关，因为当我删除对LDAP内容的调用时，内存使用情况会很好地稳定下来。此外，不断增加的对象是Net::BER::BerIdentifiedString和Net::BER::BerIdentifiedArray，它们都是LDAP库的一部分。当我运行导入时，内存使用量最终达到超过1GB的峰值。如果问题存在，我需要找到一些方法来更正我的代
ruby-on-rails - Rails 3 中的多个路由文件 - 2
Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情？最佳答案在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中，使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件，我们在StackOverflow上找到一个类似的问题
ruby-on-rails - Rails - 子类化模型的设计模式是什么？ - 2
我有一个模型:classItem项目有一个属性“商店”基于存储的值，我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式？如果方法中没有大的if-else语句，这是如何干净利落地完成的？最佳答案通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co
ruby - 将差异补丁应用于字符串/文件 - 2
对于具有离线功能的智能手机应用程序，我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl
ruby-on-rails - Rails - 一个 View 中的多个模型 - 2
我需要从一个View访问多个模型。以前，我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它，但这似乎不是“ruby方式”，我将需要在不久的将来访问更多模型。这可能会变得很脏，是否有针对这种情况的任何技术？注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展，本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向，这似乎很麻烦。最终从任何
ruby-on-rails - Rails 3.2.1 中 ActionMailer 中的未定义方法 'default_content_type=' - 2
我在我的项目中添加了一个系统来重置用户密码并通过电子邮件将密码发送给他，以防他忘记密码。昨天它运行良好(当我实现它时)。当我今天尝试启动服务器时，出现以下错误。=>BootingWEBrick=>Rails3.2.1applicationstartingindevelopmentonhttp://0.0.0.0:3000=>Callwith-dtodetach=>Ctrl-CtoshutdownserverExiting/Users/vinayshenoy/.rvm/gems/ruby-1.9.3-p0/gems/actionmailer-3.2.1/lib/action_mailer
ruby-on-rails - Rails 应用程序之间的通信 - 2
我构建了两个需要相互通信和发送文件的Rails应用程序。例如，一个Rails应用程序会发送请求以查看其他应用程序数据库中的表。然后另一个应用程序将呈现该表的json并将其发回。我还希望一个应用程序将存储在其公共(public)目录中的文本文件发送到另一个应用程序的公共(public)目录。我从来没有做过这样的事情，所以我什至不知道从哪里开始。任何帮助，将不胜感激。谢谢! 最佳答案无论Rails是什么，几乎所有Web应用程序都有您的要求，大多数现代Web应用程序都需要相互通信。但是有一个小小的理解需要你坚持下去，网站不应直接访问彼此
ruby-on-rails - 在混合/模块中覆盖模型的属性访问器 - 2
我有一个包含模块的模型。我想在模块中覆盖模型的访问器方法。例如:classBlah这显然行不通。有什么想法可以实现吗？最佳答案您的代码看起来是正确的。我们正在毫无困难地使用这个确切的模式。如果我没记错的话，Rails使用#method_missing作为属性setter，因此您的模块将优先，阻止ActiveRecord的setter。如果您正在使用ActiveSupport::Concern(参见thisblogpost)，那么您的实例方法需要进入一个特殊的模块:classBlah