摘要:图文匹配是跨模态基础任务之一,其核心是如何准确评估图像语义与文本语义之间的相似度。现有方法是通过引入相关阈值,最大限度地区分相关和无关分布,以获得更好的语义对齐。然而,对于特征本身,其语义之间缺乏相互关联,且对于缺乏空间位置信息的图像区域与文本单词很难准确对齐,从而不可避免地限制了相关阈值的学习导致语义无法准确对齐。针对此问题,本文提出一种融合语义增强和位置编码的自适应相关性可学习注意力的图文匹配方法。首先在初步提取特征的基础上构造图像(文本)无向全连通图,使用图注意力去聚合邻居的信息,获得语义增强的特征。然后,对图像区域的绝对位置信息编码,在具备了空间语义的图像区域与文本单词相似性的基础上获得最大程度区分的相关和无关分布,更好地学习两个分布之间的最优相关边界。最后,通过公开数据集Flickr 30k和MS-COCO,利用Recall@K指标对比实验,验证本文方法的有效性。
文章目录
1 相关工作
1.1 图像–文本匹配
1.2 图形表示学习
2 融合语义增强和位置编码的图文匹配方法
2.1 特征提取
2.2 语义增强模块
2.3 基于位置编码的自适应相关性可学习模块
2.4 损失函数
3 实 验
3.1 实验设置
3.2 定量结果
3.3 定性结果
3.4 消融实验
4 结 语