摘要
有源码 可跑通
1 introduction
图文检索很重要
2 related work
属于图文检索中通过提高图像表示改善效果;
注意力机制使用了faster RCNN
关系推理用graph
3 本文方法
分4块介绍
3.1图像表示
使用的另外两篇论文的方法
3.2区域关系推理
以物体特征为节点建graph,以边表示的亲和力高的区域语义关联性强,被关联起来。
计算方式是矩阵乘,更新节点特征
使用了残差联连接,就是加上没有处理前的自己
3.3 全局关系推理
3.4联合匹配与生成学习关联性
连接视觉和语言领域,利用基于 GRU 的文本编码器将 text caption 映射到 D维的向量
介绍了损失函数
4实验
包括图搜索文 和 文搜索图
4.1 数据集和规则
4.2 训练测试实现细节
4.3 与最好效果相比
MS coco 和Flickr30K上效果都好
4.4 消融分析
区域排序 用的图神经网络GCN 有用
全局推理用的GRU有用
4.5可视化与分析
定性观察两种可视化结果
5 总结
没信息