论文杂记 | ||
---|---|---|
上一篇 | 主目录 | 下一篇 |
【前言】
通常训练CNNs需要大量的标记数据,针对这种情况,本文提出一种微调后的CNNs网络结构可用于在大规模无序图像中进行检索。通过利用3d模型中可用的几何图形和摄像机位置来选择正负样例,来增强特定目标检索的性能表现。本文提出一种参数可训练的pooling layer:Generalized-Mean (GeM)来提高检索性能。在VGG网络上使用本文提出的GeM在Oxford Buildings, Paris, and Holidays datasets上得到了最好的检索性能。
IEEE,JULY 2019
本文要点
【本文代码链接】
http://cmp.felk.cvut.cz/cnnimageretrieval/
https://github.com/ShaneHolmes/cnnimageretrieval-pytorch
本文是《CNN image retrieval learns from BoW: Unsupervised fine-tuning with hard examples》, in ECCV, 2016的改进扩展
本文《Fine-Tuning CNN Image Retrieval with No Human Annotation》下载地址
或者联系博主获取,邮箱:shaneholmes@qq.com
本文引用仅供学习用,如有侵权请联系删除。
文中引用的paper:《From single image query to detailed 3D reconstruction》,IEEE 2015
Structure from Motion (SfM),即从运动到结构,通过相机的移动来确定目标的空间和几何关系,是三维重建的一种常见方法。
SfM: (bundler, VisualSFM, OpenMVG)
input: 一组图片 output:
场景粗糙的3D形状(稀疏重建), 还有每张图片对应的相机参数
https://www.bilibili.com/video/av49289103?from=search&seid=3238883746439954948
参考文章:
https://blog.csdn.net/lpj822/article/details/82716971
https://blog.csdn.net/weeeeeida/article/details/101726093
https://blog.csdn.net/j10527/article/details/78867884
https://blog.csdn.net/qq_33826977/article/details/79834735
本文不需要手工注释数据或对训练数据集的任何假设,而是利用结构-运动(SfM)管道自动重建的三维模型的几何形状和摄像机位置来实现这一点。最先进的检索- sfm管道采用无序的图像收集作为输入,并试图建立所有可能的3D模型。
关于池化层的作用和各种池化方法:
《CNN的工作原理》 3 池化
whitening (白化)这个词,可能在深度学习领域比较常遇到,其实whitening 是PCA【《主成分分析(PCA)》】的进一步,其目的就是降低输入的冗余性。(假设训练数据是图像,由于图像中相邻像素之间具有很强的相关性,所以用于训练时输入是冗余的)
输入数据集X,经过白化处理后,新的数据X’满足两个性质:
(1)特征之间相关性较低(PCA)
(2)所有特征具有相同的方差(PCA后新坐标下方差归一化)
使用PCA降维即求出特征向量,然后把数据X映射到新的特征空间,这样的一个映射过程,其实就是满足了我们白化的第一个性质:除去特征之间的相关性。因此白化算法的实现过程,第一步操作就是PCA,求出新特征空间中X的新坐标,然后再对新的坐标进行方差归一化操作。
对于人工标注的图像,来自相同对象类别的两个图像可能完全不同,例如建筑物的不同视角或不同的建筑物。 我们从大型无序图像收集开始,以全自动方式解决了这个问题,而无需任何人工干预。
【问题】end-to-end learning used to image retrieval???
《End-to-end learning of deep visual representations for image retrieval》