特牛网址导航

Identity-Aware Textual-Visual Matching with Latent Co-attention文章翻译学习(ICCV)-CSDN博客

网友收藏
文章浏览阅读1.3k次。原文链接:点击打开链接Abstract文本 - 视觉匹配旨在测量句子描述和图像之间的相似性。大多数现有方法在解决此问题时没有有效利用身份级别注释。在本文中,我们提出了一个用于文本 - 视觉匹配问题的身份感知两阶段框架。我们的stage-1 CNN-LSTM网络学习将跨模态特征嵌入到新的交叉模态交叉熵(CMCE)丢失中。第一阶段网络能够有效地筛选容易出现错误的配对,并为第二阶段训练提供初始训练点。第...