Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text Retrieval论文地址:https://arxiv.org/abs/2207.14428代码地址:未开源
作者利用StyleGAN2模型,该模型可以生成高质量和多样性的图像。值得注意的是,作者在没有条件文本输入的情况下训练StyleGAN2,否则模型生成性能将受到有限的文本图像对的限制。由于StyleGAN的潜在空间W已被证明与语义内容分离,StyleGAN2的分离性使得能够对生成的图像进行有效的语义操作。为此,作者首先将真实图像投影回经过训练的StyleGAN2的潜在空间W,在那里可以获得可用于重建给定图像的潜在代码W。利用投影的w和相应的文本标题,将文本特征映射到空间w,并学习成对w-文本特征表示之间的对齐模型。该过程如上图所示。作者将增强文本输入到经过训练的潜在空间对齐模块中,输出可以用作StyleGAN2的潜在代码w,以生成增强图像。因此,可以获得语义一致的成对增强文本图像数据。为了评估增强配对数据的有效性,作者对细粒度图像到文本跨模态检索任务进行了实验。受现有生成模型生成能力的限制,很难生成具有多个对象的图像,例如COCO数据集的图像。最近提出的XMC-GAN采用复杂的体系结构来生成像样的COCO图像,这不可能在检索训练期间从文本在线生成增强图像。因此,这里重点关注具有单对象图像的数据集。在图像到文本跨模态检索任务中,给定一个模态(例如文本)的样本,模型需要从另一个模态中找到相应的数据样本(例如图像),反之亦然。由于本文的跨模态数据增强方法可以在线提供无限的原始文本-图像对,因此可以在现有数据增强方法和检索模型的基础上使用。作者使用多个设置和模型主干进行了实验,实验表明,使用本文的方法的模型可以在两个公共数据集上提高原始性能。最后,作者还给出了扩充数据的定性结果。在本文中,作者开发了一种新的框架来生成新的文本-图像数据对,以解决跨模态数据扩充问题。本文的模型包括几个新的贡献:(i)提出了一种方法来解决生成的文本和图像之间语义一致性的挑战,这可以通过StyleGAN2模型的投影潜在代码来实现;(ii)作者用随机方法构造增广文本token替换,然后将增强文本传递到潜在空间对齐模块以给出潜在代码,这些代码被馈送到StyleGAN2中以生成增强图像;(iii)作者将所提出的算法应用于图像到文本检索任务,并提高了基准模型的性能。
本文提出的成对交叉模态数据增强方法如上图所示。整个流程可总结为以下三阶段训练方案:阶段1:仅使用图像训练StyleGAN2模型。StyleGAN2模型将随机噪声空间Z映射到样式潜在空间W,该空间被分离并有助于生成高质量和多样性的图像。阶段2:将真实图像投影回潜在空间W,并获得给定图像的潜在代码w。然后,学习一个潜在空间对齐模块
在一个mini-batch中,有原始文本图像对? = (?, ?) 以及增强对
在上表中,作者展示了使用随机替换策略训练的模型的评估性能。
在上表中,作者给出了POS替换策略的结果,其中替换率? = 0.7用于以下所有实验。
上表展示不同实验设置下的实验结果。
CUB上现有的跨模态检索工作主要集中在类级检索设置上,作者将提出的方法与上表中的各种模型进行了比较。
上表展示了对比各种Recipe1M instacne级检索基准,评估本文提出的方法的性能。
上表展示了在COCO数据集上的检索结果。
上图展示了从增强文本生成的增强图像的可视化,其中使用随机替换策略。
上图展示了原始图像和增强图像
“点个在看,月薪十万!”“学会点赞,身价千万!”
很好奇,就使用rubyonrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提
在控制台中反复尝试之后,我想到了这种方法,可以按发生日期对类似activerecord的(Mongoid)对象进行分组。我不确定这是完成此任务的最佳方法,但它确实有效。有没有人有更好的建议,或者这是一个很好的方法?#eventsisanarrayofactiverecord-likeobjectsthatincludeatimeattributeevents.map{|event|#converteventsarrayintoanarrayofhasheswiththedayofthemonthandtheevent{:number=>event.time.day,:event=>ev
我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
我正在编写一个包含C扩展的gem。通常当我写一个gem时,我会遵循TDD的过程,我会写一个失败的规范,然后处理代码直到它通过,等等......在“ext/mygem/mygem.c”中我的C扩展和在gemspec的“扩展”中配置的有效extconf.rb,如何运行我的规范并仍然加载我的C扩展?当我更改C代码时,我需要采取哪些步骤来重新编译代码?这可能是个愚蠢的问题,但是从我的gem的开发源代码树中输入“bundleinstall”不会构建任何native扩展。当我手动运行rubyext/mygem/extconf.rb时,我确实得到了一个Makefile(在整个项目的根目录中),然后当
这是一道面试题,我没有答对,但还是很好奇怎么解。你有N个人的大家庭,分别是1,2,3,...,N岁。你想给你的大家庭拍张照片。所有的家庭成员都排成一排。“我是家里的friend,建议家庭成员安排如下:”1岁的家庭成员坐在这一排的最左边。每两个坐在一起的家庭成员的年龄相差不得超过2岁。输入:整数N,1≤N≤55。输出:摄影师可以拍摄的照片数量。示例->输入:4,输出:4符合条件的数组:[1,2,3,4][1,2,4,3][1,3,2,4][1,3,4,2]另一个例子:输入:5输出:6符合条件的数组:[1,2,3,4,5][1,2,3,5,4][1,2,4,3,5][1,2,4,5,3][
我已经构建了一些serverspec代码来在多个主机上运行一组测试。问题是当任何测试失败时,测试会在当前主机停止。即使测试失败,我也希望它继续在所有主机上运行。Rakefile:namespace:specdotask:all=>hosts.map{|h|'spec:'+h.split('.')[0]}hosts.eachdo|host|begindesc"Runserverspecto#{host}"RSpec::Core::RakeTask.new(host)do|t|ENV['TARGET_HOST']=hostt.pattern="spec/cfengine3/*_spec.r
有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳
我们的git存储库中目前有一个Gemfile。但是,有一个gem我只在我的环境中本地使用(我的团队不使用它)。为了使用它,我必须将它添加到我们的Gemfile中,但每次我checkout到我们的master/dev主分支时,由于与跟踪的gemfile冲突,我必须删除它。我想要的是类似Gemfile.local的东西,它将继承从Gemfile导入的gems,但也允许在那里导入新的gems以供使用只有我的机器。此文件将在.gitignore中被忽略。这可能吗? 最佳答案 设置BUNDLE_GEMFILE环境变量:BUNDLE_GEMFI
这个问题在这里已经有了答案:Railsformattingdate(4个答案)关闭4年前。我想格式化Time.Now函数以显示YYYY-MM-DDHH:MM:SS而不是:“2018-03-0909:47:19+0000”该函数需要放在时间中.现在功能。require‘roo’require‘roo-xls’require‘byebug’file_name=ARGV.first||“Template.xlsx”excel_file=Roo::Spreadsheet.open(“./#{file_name}“,extension::xlsx)xml=Nokogiri::XML::Build
这似乎非常适得其反,因为太多的gem会在window上破裂。我一直在处理很多mysql和ruby-mysqlgem问题(gem本身发生段错误,一个名为UnixSocket的类显然在Windows机器上不能正常工作,等等)。我只是在浪费时间吗?我应该转向不同的脚本语言吗? 最佳答案 我在Windows上使用Ruby的经验很少,但是当我开始使用Ruby时,我是在Windows上,我的总体印象是它不是Windows原生系统。因此,在主要使用Windows多年之后,开始使用Ruby促使我切换回原来的系统Unix,这次是Linux。Rub