diversity_草庐IT

摘要跨图像和文本模态的跨模态检索由于其固有的模糊性而成为一项具有挑战性的任务：图像通常表现出各种情况，并且字幕可以与不同的图像相结合。基于集合的嵌入已经被研究作为这个问题的解决方案。它试图将样本编码为一组不同的嵌入向量，这些嵌入向量捕获样本的不同语义。本文提出了一种新的基于集合的嵌入方法，该方法在两个方面与以往的工作有所不同。首先，我们提出了一种新的相似性函数，称为光滑切角相似性，该函数旨在减轻现有相似性函数对基于集嵌入的副作用。其次，我们提出了一个新的集合预测模块来生成一组嵌入向量，该向量通过槽注意机制有效地捕捉输入的不同语义。我们的方法在不同视觉主干的COCO和Flickr30K数据集上进