别出心裁！不用负样本的对比学习

51Ann 2023-03-28 原文

对比学习系列

这是一整个系列的文章是接着上面的123继续写的，4也属于这个系列，但是跟这篇文章并没有特别大的关系。所以要看完整的建议还是把123先看了。如果你不看也可以，我下面会简要的介绍一下前面所有的文章。不过只是一句带过，如果想详细了解的话，还是建议仔细看一下。

回顾一下

回忆一下我们前边提到的对比学习。这个学习的一个重点就是设置正样本和负样本进行对比，不同的对比学习之间最大的区别就是正负样本的选择方式。现在回顾一下我们在前边的图像领域提到的一些对比学习的方法：

InstDisc：使用个体判别任务进行对比学习。正负样本的选择方法是将整个ImageNet数据集做成一个memory bank。从中抽取一个mini match作为正样本，再从中抽取一定数量的图片作为负样本。
InvaSpread：也是使用个体判别任务。正负样本的选择方式是从数据集中抽取一个mini batch的图像，对其进行增强。一张图片和它对应的增强之后的图片作为正样本，剩下的图片及其增强作为负样本。假设一个mini batch有N个样本，那每一次都会有2个正样本和2N-2个负样本。
CPC：前面两个工作都是使用的判别式任务，在这篇文章中使用的是生成式任务。用前T时间不能内容作为输入编码出一个结果，用这个结果去预测T时间之后的内容。T时间布之后的输入如果是正确的，那么这些输入编码出来的结果就作为正样本。其他错误输入编码出来的就作为负样本。
CMC：在这个工作中研究的是不同视角的特征信息。正样本是一个图片的不同视角。负样本是其他图片的不同视角。
SimCLR：这个有点类似于前面的InvaSpread，不过区别在于它是从数据集中抽取一个mini batch的图像，对这一组图像进行两次不同的增强。同一张图片的两个增强作为正样本，其他图片的两个增强作为负样本。在这里也是假设一个mini batch有N个样本，那每一次都会有2个正样本和2N-2个负样本。
SwAV：这个工作提出的是与聚类中心进行比较。因为原作者认为从数据集中随机抽取的图像是没有代表性的，可能会出现抽重复的问题，如果负样本选择太多，也可能会造成计算资源的浪费，因此在这篇文章中提出了与聚类中心进行一个比较。
SimCSE：这是一个文本领域的对比学习，因为文本领域和图像领域数据增长方式存在差异。直接对文本进行增强的话，会影响对比学习的效果。因此在这篇文章中使用对文本进行dropout。两次drop获得同一个内容的不同表示作为正样本，其他的输入句子作为负样本。

前边我们提到的这些工作都是有正样本和负样本的。但是今天要介绍的这几个文章，他们独出心裁，不使用负样本，也能够做对比学习。

不用负本的对比学习

BYOL

论文简介

论文地址：Bootstrap your own latent: A new approach to self-supervised Learning 代码地址：https://github.com/deepmind/deepmind-research/tree/master/byol

我们先来看一下模型的效果吧。这张图是不是似曾相识，SwAV的效果图也是这么画的。我们可以看到下边都是SimCLR，上边都是有监督学习。并且也比较了不同模型的大小。但是实际上BYOL的效果不如SwAV，但是为什么没有和SwAV比较呢，因为二者是同时期的工作，所以没有比较也是正常的。

这上面这张图里我们可以看出BYOL的效果是明显好于SimCLR、CMC、Moco、MoCo V2的。既然他取得了这么好的效果那它的模型究竟是什么样子的呢。

对于一个mini batch的图像对其进行两次增强$t$和$t'$。获得两个视角$v$和$v'$，这二者用过两个编码器$f_θ$和$f_ξ$获得两个不同的表示$y_θ$和$y'_{\xi}$。再经过两个线性层$g_θ$和$g_ξ$获得projection。因为是一个mini batch的不同增强，所以经过编码之后两个向量应该都指向相同的内容。那使用其中一个去预测其中另一个也是成立的。在这个思路的指导下就是将上半部分的网络的projection拿来做预测，预测下半部分网络的内容。让二者尽量相似。因此使用的损失是MSE loss。

两个网络的训练方式是不同的。上半部分使用的是正常的梯度更新，下半部分使用的是动量编码器。

为什么不用负样本是“别出心裁”

使用对比学习的目的是这个问题是想要让训练之后的网络遇到相似的物体能编码出来相近的特征。

想象一下这样一个场景：如果在对比学习中只有正样本，没有负样本，因为正样本都是相似的样本，所以你给模型输入，不论你输入什么，他只要给你返回同样的输出，这样的话所有出来的特征都是完全一样的。这个时候用结果去计算对比学习的loss就永远都是0。从loss来看，你以为自己训练了一个完美的对比学习模型，然而实际上是不论你输入什么，他都给出相同的结果，模型又什么都不需要学，loss永远都是0。

因此对比学习中需要负样本。负样本的作用是作为约束，让模型知道噢还有其他的东西需要编码，所以我不能草率的把相近的东西给出相同的编码。这样模型才有动力去继续学，因为如果输出的所有特征都一样，那负样本的loss就无穷大，所以它必须想办法让正样本和负样本的loss都往下降，达到一个最优解。

所以说，负样本在对比学习里是个必须的东西，它能防止模型学到捷径，很多论文里也管这个叫model collapse或者learning collapse ，就是模型坍塌或者学习坍塌，说白了就是什么也没学到，负样本就是为了限制这种情况的发生。

但BYOL之所以神奇就是它没有用负样本，正样本自己跟自己学最后在ImageNet上也达到了74.3的准确率。

围绕BYOL展开论战

Understanding Self-Supervised and Contrastive Learning with "Bootstrap Your Own Latent" (BYOL)

现在不得不提一下下上面这篇博客。

BYOL出来之后很惊奇，嘛所以有人就是复现他这个模型。但是人家复现出来的模型不论怎样都是坍塌的。你出现不出来人家的结果，第一反应是什么？是不是对这个人论文造假了。但是这篇论文是谷歌 DeepMind的工作，所以复现模型的人就在想，谷歌应该不会学术造假，肯定是我们哪里出了问题。然后他们就开始找原因，找呀找：

最后他们找到了原因，问题出在了batch norm上。这个。

SimCLR是Hinton的工作，当时给编码器出来的特征再加了一个projection head，也就是一个简单的MLP，效果直接提升了10个点，令研究人员自己都感到震惊。他们当时的模型是： $$ linear - batch normal - ReLu - linear - batch normal $$

MoCo的作者看到了，既然MLP这么好用，那我们也用一下。所以在MoCo v2中也加入了projection head。

但是他们的线性层是没有batch norm的。

复现这个模型的人呢没有考虑这些细节，复现BYOL时候就直接使用人家MoCo v2之前的代码改吧改吧，改出了BYOL。但是实际上BYOL使用的MLP和MoCo v2是不同的。

我在上面画了一个对比图，大家可以明显的看出来两个MLP是不同的。BYOL中可以看到有三个紫色的模块。前两个是projection head 后边那个是 prediction head。这三个的结构都是相同的。只在第一个线性层后边接一个batch norm。因为多了这一个batch norm，所以BYOL的模型没有坍塌，但是复现这篇论文的人他们的模型坍塌了。

所以在这篇博客中，这个人总结到BYOL之所以成功，是因为它有一个batch norm。博客的作者认为虽然你没有引入负样本，但是batch norm做的一个归一化是将整个样本的数据都引入了每一个特征向量中，还是隐含的吸收到了整个样本中的信息。

BYOL的反击

上面这篇博客说明了什么。按照上面这篇博客的意思，整个BYOL的成功仅仅是因为batch norm，因为batch norm在暗中还是对整个样本进行了对比。这是相当于否认了整个BYOL论文的创新点。为了保住自己的成果BYOL的作者开始了反击。

因为MoCo v2本来就没有使用BN，所以无法比较BN的作用。因此作者与SimCLR进行比较。作者做了下图充足的消融实验。

作者用 $$ \begin{aligned} &encoder&Projector \quad &predictor \ &\quad— \quad&BN \quad \quad&\quad— \end{aligned} $$ 这组实验说明你看在这里我用了BN，但是最后模型还是坍塌了，所以肯定不是BN在起作用。

还用 $$ \begin{aligned} &encoder&Projector \quad &predictor \ &\quad— &— \quad \quad\quad&\quad 任意 \end{aligned} $$ 因为SimCLR没有predictor，因此最后一项是任意。或者用这组实验说明不用BN的情况下，虽然SimCLR存在负样本，但是SimCLR也模型坍塌了，肯定不是BN在起作用。

虽然但是。其实我个人觉得这个解释有点牵强，甚至在我眼里，我认为这个实验更加突出了BN的作用。尤其是predictor里BN的作用。（个人观点而已）

到这里这个故事就算是结束了。那个博客的作者也妥协了。

SimSiam

论文地址：http://arxiv.org/abs/2011.10566

看一下它的模型图。从作图方式上是不是感觉似曾相识，如果你看过MoCo你就应该知道，SimSiam和MoCo的画风完全一致。没猜错SimSiam还是Facebook的工作。

从名字看像SimCLR，模型的做法又像是BYOL，但他还是Facebook的工作。看起来像不像一个拼接怪。

接下来我们来看一下这个模型都在干什么。

还是把图片$x$进行不同的增强，得到$x_1$和$x_2$。从前后到两组图片放入一个孪生网络中。孪生网络的两个编码器是共享参数初始化的。之后将一个编码器编码出来的表示拿来预测另一个。

这个工作和BYOL的主要区别是他没使用动量编码器。

看一下下面的伪代码，我们就能知道这个算法真的是非常简单。

并且在本文中进行了大量的实验。最后作者得到一个结论：之所以SimSiam能够成功训练，不会有模型坍塌，主要是因为有stop gradient这个操作的存在。

前面说这个论文是个拼接怪。最终作者自己也说自己像是拼接怪。

SimCLR：SimCLR因为是端到端的学习，所以说两边都有梯度回传，但是它还是做的一个对比任务

SwAV：做的也是一个对比任务，但它并没有跟负样本去比，而是跟聚类中心去比的，那聚类中心是通过SK算法得到的

BYOL：BYOL就有一个新的贡献（就是predictor，图中已经单独画出来了），它就不是一个对比任务，变成一个预测任务了，要用左边去预测右边，同时还使用了动量编码器

SimSiam：整体跟BYOL非常像，左边其实就是一模一样，只不过右边没有用动量编码器，所以这个对比还是比较简洁明了的。

别出心裁的 image BYOL 聚类对比学习 CV深度学习人工智能yyds干货盘点

有关别出心裁！不用负样本的对比学习的更多相关文章

LC滤波器设计学习笔记（一）滤波电路入门 - 2
目录前言滤波电路科普主要分类实际情况单位的概念常用评价参数函数型滤波器简单分析滤波电路构成低通滤波器RC低通滤波器RL低通滤波器高通滤波器RC高通滤波器RL高通滤波器部分摘自《LC滤波器设计与制作》，侵权删。前言最近需要学习放大电路和滤波电路，但是由于只在之前做音乐频谱分析仪的时候简单了解过一点点运放，所以也是相当从零开始学习了。滤波电路科普主要分类滤波器：主要是从不同频率的成分中提取出特定频率的信号。有源滤波器：由RC元件与运算放大器组成的滤波器。可滤除某一次或多次谐波，最普通易于采用的无源滤波器结构是将电感与电容串联，可对主要次谐波（3、5、7）构成低阻抗旁路。无源滤波器：无源滤波器，又称
CAN协议的学习与理解 - 2
最近在学习CAN，记录一下，也供大家参考交流。推荐几个我觉得很好的CAN学习，本文也是在看了他们的好文之后做的笔记首先是瑞萨的CAN入门，真的通透；秀！靠这篇我竟然2天理解了CAN协议！实战STM32F4CAN！原文链接：https://blog.csdn.net/XiaoXiaoPengBo/article/details/116206252CAN详解（小白教程）原文链接：https://blog.csdn.net/xwwwj/article/details/105372234一篇易懂的CAN通讯协议指南1一篇易懂的CAN通讯协议指南1-知乎(zhihu.com)视频推荐CAN总线个人知识总
深度学习部署：Windows安装pycocotools报错解决方法 - 2
深度学习部署：Windows安装pycocotools报错解决方法1.pycocotools库的简介2.pycocotools安装的坑3.解决办法更多Ai资讯：公主号AiCharm本系列是作者在跑一些深度学习实例时，遇到的各种各样的问题及解决办法，希望能够帮助到大家。ERROR:Commanderroredoutwithexitstatus1:'D:\Anaconda3\python.exe'-u-c'importsys,setuptools,tokenize;sys.argv[0]='"'"'C:\\Users\\46653\\AppData\\Local\\Temp\\pip-instal
ruby - 我正在学习编程并选择了 Ruby。我应该升级到 Ruby 1.9 吗？ - 2
我完全不是程序员，正在学习使用Ruby和Rails框架进行编程。我目前正在使用Ruby1.8.7和Rails3.0.3，但我想知道我是否应该升级到Ruby1.9，因为我真的没有任何升级的“遗留”成本。缺点是什么？我是否会遇到与普通gem的兼容性问题，或者甚至其他我不太了解甚至无法预料的问题？最佳答案你应该升级。不要坚持从1.8.7开始。如果您发现不支持1.9.2的gem，请避免使用它们(因为它们很可能不被维护)。如果您对gem是否兼容1.9.2有任何疑问，您可以在以下位置查看:http://www.railsplugins.or
ruby - 我如何学习 ruby 的正则表达式？ - 2
如何学习ruby的正则表达式？(对于假人) 最佳答案 http://www.rubular.com/在Ruby中使用正则表达式时是一个很棒的工具，因为它可以立即将结果可视化。关于ruby-我如何学习ruby的正则表达式？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/1881231/
深度学习12. CNN经典网络 VGG16 - 2
深度学习12.CNN经典网络VGG16一、简介1.VGG来源2.VGG分类3.不同模型的参数数量4.3x3卷积核的好处5.关于学习率调度6.批归一化二、VGG16层分析1.层划分2.参数展开过程图解3.参数传递示例4.VGG16各层参数数量三、代码分析1.VGG16模型定义2.训练3.测试一、简介1.VGG来源VGG（VisualGeometryGroup）是一个视觉几何组在2014年提出的深度卷积神经网络架构。VGG在2014年ImageNet图像分类竞赛亚军，定位竞赛冠军；VGG网络采用连续的小卷积核（3x3）和池化层构建深度神经网络，网络深度可以达到16层或19层，其中VGG16和VGG
机器学习——时间序列ARIMA模型(四)：自相关函数ACF和偏自相关函数PACF用于判断ARIMA模型中p、q参数取值 - 2
文章目录1、自相关函数ACF2、偏自相关函数PACF3、ARIMA(p,d,q)的阶数判断4、代码实现1、引入所需依赖2、数据读取与处理3、一阶差分与绘图4、ACF5、PACF1、自相关函数ACF自相关函数反映了同一序列在不同时序的取值之间的相关性。公式：ACF(k)=ρk=Cov(yt,yt−k)Var(yt)ACF(k)=\rho_{k}=\frac{Cov(y_{t},y_{t-k})}{Var(y_{t})}ACF(k)=ρk=Var(yt)Cov(yt,yt−k)其中分子用于求协方差矩阵，分母用于计算样本方差。求出的ACF值为[-1,1]。但对于一个平稳的AR模型，求出其滞
Unity Shader 学习笔记（5）Shader变体、Shader属性定义技巧、自定义材质面板 - 2
写在之前Shader变体、Shader属性定义技巧、自定义材质面板，这三个知识点任何一个单拿出来都是一套知识体系，不能一概而论，本文章目的在于将学习和实际工作中遇见的问题进行总结，类似于网络笔记之用，方便后续回顾查看，如有以偏概全、不祥不尽之处，还望海涵。1、Shader变体先看一段代码......Properties{ [KeywordEnum(on,off)]USL_USE_COL("IsUseColorMixTex?",int)=0 [Toggle(IS_RED_ON)]_IsRed("IsRed?",int)=0}......//中间省略，后续会有完整代码 #pragmamulti_c
STM32的HAL和LL库区别和性能对比 - 2
LL库和HAL库简介LL：Low-Layer，底层库HAL：HardwareAbstractionLayer，硬件抽象层库LL库和hal库对比，很精简，这实际上是一个精简的库。LL库的配置选择如下：在STM32CUBEMX中，点击菜单的“ProjectManager”–>“AdvancedSettings”，在下面的界面中选择“AdvancedSettings”，然后在每个模块后面选择使用的库总结：1、如果使用的MCU是小容量的，那么STM32CubeLL将是最佳选择；2、如果结合可移植性和优化，使用STM32CubeHAL并使用特定的优化实现替换一些调用，可保持最大的可移植性。另外HAL和L
ruby-on-rails - 这个 C 和 PHP 程序员如何学习 Ruby 和 Rails？ - 2
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter指导。关闭9年前。我来自C、php和bash背景，很容易学习，因为它们都有相同的C结构，我可以将其与我已经知道的联系起来。然后2年前我学了Python并且学得很好，Python对我来说比Ruby更容易学。然后从去年开始，我一直在尝试学习Ruby，然后是Rails，我承认，直到现在我还是学不会，讽刺的是那些打着简单易学的烙印，但是对于我这样一个老练的程序员来说，我只是无法将它