LeadRR_草庐IT

摘要图像-文本检索旨在弥合模态鸿沟，根据语义相似性检索跨模态内容。之前的工作通常侧重于成对关系（即一个数据样本是否与另一个样本匹配），但忽略了高阶邻接关系（即多个数据样本之间的匹配结构）。重新排序是一种流行的后处理方法，它揭示了在单模态检索任务中捕捉邻接关系的优越性。然而，将现有的重新排序算法直接扩展到图像文本检索中效果并不理想。本文从泛化性、灵活性、稀疏性和不对称性四个角度分析了原因，并提出了一种新颖的基于可学习支柱的重新排序范式。具体来说，我们首先选择排名靠前的模内和模间邻居作为支柱，然后利用数据样本与支柱之间的邻居关系重建数据样本。这样，每个样本只需利用相似性就能映射到多模态支柱空间，从