MM2022 | 用StyleGAN进行数据增强，真的太好用了

FightingCV 2023-03-28 原文

MM2022 | 用StyleGAN进行数据增强，真的太好用了

【写在前面】

本文研究了生成文本-图像对的开放性研究问题，以改进细粒度图像到文本跨模态检索任务的训练，并提出了一种通过揭示StyleGAN2模型隐藏的语义信息来增强配对数据的新框架。具体来说，作者首先在给定的数据集上训练StyleGAN2模型。然后，将真实图像投影回StyleGAN2的潜在空间，以获得潜在代码。为了使生成的图像具有可操作性，进一步引入了潜在空间对齐模块来学习StyleGAN2潜在代码与相应文本字幕特征之间的对齐。当进行在线配对数据增强时，作者首先通过随机token替换生成增强文本，然后将增强文本传递到潜在空间对齐模块以输出潜在代码，最后将潜在代码馈送到StyleGAN2以生成增强图像。作者在两个公共跨模态检索数据集上评估了本文的增强数据方法的有效性，其中有希望的实验结果表明，增强的文本-图像对数据可以与原始数据一起训练，以提高图像到文本的跨模态检索性能。

1. 论文和代码地址

Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text Retrieval

论文地址：https://arxiv.org/abs/2207.14428

代码地址：未开源

2. Motivation

为基于深度学习的模型训练收集大量数据标注通常比较困难或昂贵，因此自动数据扩充已被广泛用作提高模型性能的实用技术。现有方法主要局限于单模态数据增强。具体而言，视觉Transformer采用了随机增强和随机擦除，以提高模型性能。然而，目前关于成对跨模态文本图像数据的数据增强技术的研究很少。如果想同时对文本和图像进行数据扩充，并构建有用的文本图像对，挑战似乎是：如何生成具有相同语义信息的扩充文本图像对？

为了解决图像到文本跨模态检索任务的成对数据增强问题，作者提出了一种新的成对文本图像数据增强算法，该算法可以与当前流行的单模态数据增强策略一起使用，并且易于插入现有的检索方法。具体而言，由于文本是由各种词token的组合形成的，因此增加语义词组合的数量可以是一种简单而有效的方法，以产生更多样化的文本特征，从而实现稳健的推理。这意味着可以随机替换文本标题中的部分单词，以构建增强文本。为了进一步匹配增强文本和图像之间的语义一致性，作者从增强文本生成增强图像。

作者利用StyleGAN2模型，该模型可以生成高质量和多样性的图像。值得注意的是，作者在没有条件文本输入的情况下训练StyleGAN2，否则模型生成性能将受到有限的文本图像对的限制。由于StyleGAN的潜在空间W已被证明与语义内容分离，StyleGAN2的分离性使得能够对生成的图像进行有效的语义操作。为此，作者首先将真实图像投影回经过训练的StyleGAN2的潜在空间W，在那里可以获得可用于重建给定图像的潜在代码W。利用投影的w和相应的文本标题，将文本特征映射到空间w，并学习成对w-文本特征表示之间的对齐模型。该过程如上图所示。作者将增强文本输入到经过训练的潜在空间对齐模块中，输出可以用作StyleGAN2的潜在代码w，以生成增强图像。因此，可以获得语义一致的成对增强文本图像数据。

为了评估增强配对数据的有效性，作者对细粒度图像到文本跨模态检索任务进行了实验。受现有生成模型生成能力的限制，很难生成具有多个对象的图像，例如COCO数据集的图像。最近提出的XMC-GAN采用复杂的体系结构来生成像样的COCO图像，这不可能在检索训练期间从文本在线生成增强图像。因此，这里重点关注具有单对象图像的数据集。

在图像到文本跨模态检索任务中，给定一个模态（例如文本）的样本，模型需要从另一个模态中找到相应的数据样本（例如图像），反之亦然。由于本文的跨模态数据增强方法可以在线提供无限的原始文本-图像对，因此可以在现有数据增强方法和检索模型的基础上使用。作者使用多个设置和模型主干进行了实验，实验表明，使用本文的方法的模型可以在两个公共数据集上提高原始性能。最后，作者还给出了扩充数据的定性结果。

在本文中，作者开发了一种新的框架来生成新的文本-图像数据对，以解决跨模态数据扩充问题。本文的模型包括几个新的贡献：（i）提出了一种方法来解决生成的文本和图像之间语义一致性的挑战，这可以通过StyleGAN2模型的投影潜在代码来实现；（ii）作者用随机方法构造增广文本token替换，然后将增强文本传递到潜在空间对齐模块以给出潜在代码，这些代码被馈送到StyleGAN2中以生成增强图像；（iii）作者将所提出的算法应用于图像到文本检索任务，并提高了基准模型的性能。

3. 方法

本文提出的成对交叉模态数据增强方法如上图所示。整个流程可总结为以下三阶段训练方案：

阶段1：仅使用图像训练StyleGAN2模型。StyleGAN2模型将随机噪声空间Z映射到样式潜在空间W，该空间被分离并有助于生成高质量和多样性的图像。

阶段2：将真实图像投影回潜在空间W，并获得给定图像的潜在代码w。然后，学习一个潜在空间对齐模块

, 其中，文本特征映射为与相应的潜在代码w对齐。

阶段3：以在线方式进行跨模态数据扩充。通过随机token替换来构造增强文本。然后，将增强文本输入到经过训练的对齐模块中

, 其输出可用作StyleGAN2的潜代码w以生成增强图像。

3.1 Image projection to latent space

StyleGAN2模型可以表示为

，其中模型使用多层感知器 (MLP) 将初始噪声空间Z映射到样式潜在空间W。然后，StyleGAN2根据解纠缠空间W的潜在代码w生成图像。在给定数据集上训练StyleGAN2模型后，将真实图像投影回潜在空间W。

在这个模块中，将潜在代码w∈ W用于优化。具体地说，首先运行10000个随机噪声输入z，以产生映射的潜代码w=MLP（z）。使用平均值

作为w的初始化，并且w的近似尺度可以设置为：

，是到中心的平均平方欧几里德距离。作者采用

作为生成图像的输入，其中? 从一逐渐变为零。高斯噪声在w上的使用增加了优化过程的随机性，并使全局最优解的找到变得稳定。

作者的目标是从投影的潜在代码的重建图像

与原始真实图像x相同。为此，作者采用感知损失作为优化目标，其可以表示为：

其中，

表示VGG 特征提取模型。优化结果

是可以重建给定真实图像的最接近的潜码。

3.2 Latent space alignment

对于图像x，将图像投影到潜在空间W，得到相应的潜在码

。StyleGAN2的潜在空间W已被证明与语义内容分离，其具有与文本特征空间相同的属性。因此可以将文本表示映射到与W相同的空间。此外，由于文本表示可以随原始文本输入进行语义更改，当可以实现文本特征空间和StyleGAN2潜在空间W之间的多模式对齐时，生成的图像可以用给定的文本进行操作。

具体来说，作者采用了LSTM

为了对文本标题进行编码? 并输出文本表示

, t与w的特征尺寸相同。由于图像和潜在代码之间以及图像和文本之间的配对关系可用，可以采用成对排序损失来学习t和

之间的对齐 ,：

表示文本编码器

的参数 , 这是潜在空间对齐模块，

在训练期间固定。

这是学习文本编码器

特征空间和StyleGAN2潜在空间W之间对齐的简单而有效的方法，可以利用StyleGAN2的不可分离性并揭示潜在空间W的隐藏语义结构，从而生成的图像可以通过文本进行操作。在对潜在空间对齐模型进行训练后，将文本数据输入到训练后的模型中

, 输出文本表示可以被视为StyleGAN2生成图像的潜在代码w。

3.3 Online paired data generation

根据标题，获得了词汇表? 由给定数据集的所有现有单词组成。此外，对于标题中的每个单词token，作者采用spaCy库进行词性标注，例如形容词和名词。然后，作者还收集了一个POS词汇表

, 其中可以从词性标注中检索一组词。

给定标题词token列表

, 作者首先基于替换率?在S中选择部分token , 然后在中随机选取其他token ? 或

以替换选定的原始token。随机替换后的token列表可以表示为增强文本数据

。然后输入增强文本

进入经训练的潜在空间对准模块

, 输出

可以用作StyleGAN2生成增强图像的潜在代码

。值得注意的是，更换率? 以及增强策略（例如? 或

) 是超参数，下面的算法描述给出了完整的过程。

在一个mini-batch中，有原始文本图像对? = (?, ?) 以及增强对

用于训练。在这里，作者使用提出的在线配对数据增强方法进行跨模态检索任务。

分别表示文本和图像编码器。

和

表示mini-batch中原始数据和增强数据的提取特征集。

作者采用triplet损失来学习文本和图像数据之间的相似性，如下所示：

这意味着当使用图像

时作为anchor样本，配对文本

用作正样本。然后选择一个文本

或图像

来自不同对的样本作为负样本。作为anchor的文本数据的三元组可以以类似的方式构造。求和符号意味着构造三元组，并对mini-batch的所有文本和图像实例进行训练，包括原始数据? 以及增强数据

。为了提高训练的有效性，我们采用了难例样本挖掘方法。

4.实验

作者有两种文本替换策略，即随机替换和POS替换。这两种策略的区别在于，随机替换从要替换的整个词汇表，而词性替换考虑被替换单词的词性token，并检索另一个具有相同词性token的随机单词来替换。

在上表中，作者展示了使用随机替换策略训练的模型的评估性能。

在上表中，作者给出了POS替换策略的结果，其中替换率? = 0.7用于以下所有实验。

上表展示不同实验设置下的实验结果。

CUB上现有的跨模态检索工作主要集中在类级检索设置上，作者将提出的方法与上表中的各种模型进行了比较。

上表展示了对比各种Recipe1M instacne级检索基准，评估本文提出的方法的性能。

上表展示了在COCO数据集上的检索结果。

上图展示了从增强文本生成的增强图像的可视化，其中使用随机替换策略。

上图展示了原始图像和增强图像

5. 总结

本文提出了一种新的配对跨模态数据增强框架，该框架可以生成无限量的配对数据来训练跨模式检索模型。具体来说，作者使用随机文本替换策略来生成增强文本。为了从增强文本中生成相应的增强图像，首先采用StyleGAN2模型生成高质量和多样性的图像。然后，提出通过本文的潜在空间对齐模块来弥合文本和图像数据之间的差距，该模块将文本特征映射到StyleGAN2的潜在空间W。作者使用StyleGAN2的学习对齐模块的输出来生成增强图像，从而获得增强文本-图像对。通过两个公共数据集上的图像到文本检索任务，作者进一步评估了增强数据的质量。实验结果表明，提出的方法可以在几个不同的基准上有效地提高最新模型的性能。

【项目推荐】

面向小白的顶会论文核心代码库：https://github.com/xmu-xiaoma666/External-Attention-pytorch

面向小白的YOLO目标检测库：https://github.com/iscyy/yoloair

面向小白的顶刊顶会的论文解析：https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading

“点个在看，月薪十万！”“学会点赞，身价千万！”

有关MM2022 | 用StyleGAN进行数据增强，真的太好用了的更多相关文章

ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2
很好奇，就使用rubyonrails自动化单元测试而言，你们正在做什么？您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您？git中的预提交Hook？只是手动调用？我完全理解测试，但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的，并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您？最佳答案不确定您到底想听什么，但是有几个级别的自动代码库控制:在处理某项功能时，您可以使用类似autotest的内容获得关于哪些有效，哪些无效的即时反馈。要确保您的提
ruby-on-rails - 按天对 Mongoid 对象进行分组 - 2
在控制台中反复尝试之后，我想到了这种方法，可以按发生日期对类似activerecord的(Mongoid)对象进行分组。我不确定这是完成此任务的最佳方法，但它确实有效。有没有人有更好的建议，或者这是一个很好的方法？#eventsisanarrayofactiverecord-likeobjectsthatincludeatimeattributeevents.map{|event|#converteventsarrayintoanarrayofhasheswiththedayofthemonthandtheevent{:number=>event.time.day,:event=>ev
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - 使用 C 扩展开发 rubygem 时，如何使用 Rspec 在本地进行测试？ - 2
我正在编写一个包含C扩展的gem。通常当我写一个gem时，我会遵循TDD的过程，我会写一个失败的规范，然后处理代码直到它通过，等等......在“ext/mygem/mygem.c”中我的C扩展和在gemspec的“扩展”中配置的有效extconf.rb，如何运行我的规范并仍然加载我的C扩展？当我更改C代码时，我需要采取哪些步骤来重新编译代码？这可能是个愚蠢的问题，但是从我的gem的开发源代码树中输入“bundleinstall”不会构建任何native扩展。当我手动运行rubyext/mygem/extconf.rb时，我确实得到了一个Makefile(在整个项目的根目录中)，然后当
ruby - 如何进行排列以有效地定制输出 - 2
这是一道面试题，我没有答对，但还是很好奇怎么解。你有N个人的大家庭，分别是1,2,3,...,N岁。你想给你的大家庭拍张照片。所有的家庭成员都排成一排。“我是家里的friend，建议家庭成员安排如下:”1岁的家庭成员坐在这一排的最左边。每两个坐在一起的家庭成员的年龄相差不得超过2岁。输入:整数N，1≤N≤55。输出:摄影师可以拍摄的照片数量。示例->输入:4，输出:4符合条件的数组:[1,2,3,4][1,2,4,3][1,3,2,4][1,3,4,2]另一个例子:输入:5输出:6符合条件的数组:[1,2,3,4,5][1,2,3,5,4][1,2,4,3,5][1,2,4,5,3][
ruby - 即使失败也继续进行多主机测试 - 2
我已经构建了一些serverspec代码来在多个主机上运行一组测试。问题是当任何测试失败时，测试会在当前主机停止。即使测试失败，我也希望它继续在所有主机上运行。Rakefile:namespace:specdotask:all=>hosts.map{|h|'spec:'+h.split('.')[0]}hosts.eachdo|host|begindesc"Runserverspecto#{host}"RSpec::Core::RakeTask.new(host)do|t|ENV['TARGET_HOST']=hostt.pattern="spec/cfengine3/*_spec.r
ruby - Ruby 有 `Pair` 数据类型吗？ - 2
有时我需要处理键/值数据。我不喜欢使用数组，因为它们在大小上没有限制(很容易不小心添加超过2个项目，而且您最终需要稍后验证大小)。此外，0和1的索引变成了魔数(MagicNumber)，并且在传达含义方面做得很差(“当我说0时，我的意思是head...”)。散列也不合适，因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题，但我很想知道:Ruby标准库是否已经带有这样一个类？最佳
ruby - 是否可以覆盖 gemfile 进行本地开发？ - 2
我们的git存储库中目前有一个Gemfile。但是，有一个gem我只在我的环境中本地使用(我的团队不使用它)。为了使用它，我必须将它添加到我们的Gemfile中，但每次我checkout到我们的master/dev主分支时，由于与跟踪的gemfile冲突，我必须删除它。我想要的是类似Gemfile.local的东西，它将继承从Gemfile导入的gems，但也允许在那里导入新的gems以供使用只有我的机器。此文件将在.gitignore中被忽略。这可能吗？最佳答案设置BUNDLE_GEMFILE环境变量:BUNDLE_GEMFI
ruby-on-rails - 将 Ruby 中的日期/时间格式化为 YYYY-MM-DD HH :MM:SS - 2
这个问题在这里已经有了答案:Railsformattingdate(4个答案)关闭4年前。我想格式化Time.Now函数以显示YYYY-MM-DDHH:MM:SS而不是:“2018-03-0909:47:19+0000”该函数需要放在时间中.现在功能。require‘roo’require‘roo-xls’require‘byebug’file_name=ARGV.first||“Template.xlsx”excel_file=Roo::Spreadsheet.open(“./#{file_name}“,extension::xlsx)xml=Nokogiri::XML::Build
ruby - 在 Windows 机器上使用 Ruby 进行开发是否会适得其反？ - 2
这似乎非常适得其反，因为太多的gem会在window上破裂。我一直在处理很多mysql和ruby-mysqlgem问题(gem本身发生段错误，一个名为UnixSocket的类显然在Windows机器上不能正常工作，等等)。我只是在浪费时间吗？我应该转向不同的脚本语言吗？最佳答案我在Windows上使用Ruby的经验很少，但是当我开始使用Ruby时，我是在Windows上，我的总体印象是它不是Windows原生系统。因此，在主要使用Windows多年之后，开始使用Ruby促使我切换回原来的系统Unix，这次是Linux。Rub

MM2022 | 用StyleGAN进行数据增强，真的太好用了