NonHash deep | |
2019 | A Proposal-based Approach for Activity Image-to-Video Retrieval |
2019 ICMR | Cross-Modal Video Moment Retrieval with Spatial and Language-Temporal Attention |
以下是对论文的理解,按上面顺序排列:
Semantics-Aware Spatial-Temporal Binaries for Cross-Modal Video Retrieval S2Bin
监督,hash,deep,text-video
1.适用场景:包含活动Action的text检索包含人物且人物在中心的video的任务
2.难点:
①现有的video retrieval任务只利用帧的空间信息,并没有利用视频的空间信息
②现有方法没有或者利用的是粗粒度的语义信息,导致检索是非常粗糙的
3.应对方法:充分利用video中的时空信息,利用video中的语义信息作为监督作为text和video两个模态之间的桥梁减小模态差距
4.创新点:①利用语义信息指导检索过程,减小模态差距 ②多实例学习的思想(语义属性监督这里的多实例学习没有看懂)
5.网络结构:
text:CNN-text
video: CNN Encoder-Decoder+LSTM Encoder-Decoder,得到的videohash码是时序二值码和空间二值码的拼接
semanic attribute:CNN+FC
6.损失:跨模态hash矩阵迹损失,video时间空间的Encoder-Decoder 重构误差,text的二值量化误差,attrNet上语义损失(相似的实例应具有相似的二值码)
7.非离散优化,在video上用的是tanh()+sgn(),在text上是sgn(),在A上也是sgn()
8.trick:提出了语义监督作为不同模态之间的桥梁,通过语义属性指导的随机梯度下降训练方法,提高text-video检索的精度
问题:1.文中开头提到S和A是直接给出的吗?S表示的是什么相似度,A表示的是什么相似度?A是video和其属性的相似度,S是video之间的相似度?
2.这里的多实例学习在起到什么作用?
3.文中的Ba是什么啊?是一个假设的属性矩阵的hash码表示??
Hybrid Video and Image Hashing for Robust Face Retrieval HVIH
hash,监督,deep
1.难点:video内帧间包含巨大变化的时候得到的video在Hamming空间中的位置是不准确的,如何利用frame的互补信息是一个难点
2.动机、思路:结合video中frame信息来调整video在Hamming空间中的位置
3.网络结构:CNN+FC HashLayer-->frame binary-like code
+temporal pooling layer-->video binary-like coda
4.损失函数:softmax loss + binary constraints + triplet loss + video center align loss
frame-wise loss(softmax loss):使得frame级别更具鉴别性,分隔得更好---->supervised信息被利用
video-wise loss(triplet loss):使video更有鉴别性---->supervised信息被利用
video center align loss:减小frame和video模态间的差距,使得跨模态检索成为可能
binary constraints:减小生成二值码的量化误差,平衡位使每一位包含更多的信息
5.无离散优化,使用sigmod函数
6.trick:
疑问:
1.算法示意图中hash layer中应该是用了sigmod进行二值化的,之后frame分支又经过了一个sigmod,是这样吗??为何要经过两个阈值化过程
2.文中的softmax loss不是常用的entropy形式,这个损失函数的意义是什么??
Unsupervised Deep Video Hashing via Balanced Code for Large-Scale Video Retrieval UDVH-TSN
非监督(子监督),deep,video hash,平衡码1.现有方法做法:投影+量化(本文也是这种两阶段的方法)
2.现有方法的问题:生成二值码时各个维度的方差不平衡,在检索阶段,方差小的维度和方差大的维度对于Hamming距离的计算贡献大小相同,这不是一种好的设计;没有同时考虑video时间,空间特征
3.论文创新点:
①非监督的学习方式,准确的说采用自监督的学习方式,通过对原空间的样本Z进行k-means聚类得到C个聚类中心,对每个video生成一个C位的独热伪标签,整个video数据集生成N*C的伪标签矩阵Y;通过TSN网络得到N*1024的representation Z~(相似度保持) ,通过CCA学习到一个投影矩阵P,将表示矩阵 Z~投影到特征嵌入空间中得到矩阵H;对H进行旋转平衡各个维度的方差得到平衡后的矩阵Hr(平衡);用Hr指导TSN网络参数学习;在检索阶段,用网络学习到k位表示并使用sgn()进行二值化
②生成平衡码:使用梯度流方法对投影矩阵R进行优化最终得到平衡的video编码
4.网络结构:TSN网络,有spatial和一个temproal两个分支对video进行特征提取并学习二值码
5.损失函数:平衡各维度方差+量化误差(将code learning和 feature extract结合)
6.离散优化:sgn
7.trick:
①对原始数据学习出伪标签,学习从表示空间到特征嵌入的 投影矩阵 可以保留原始空间的相似性(原始空间的近邻结构) 即特征聚类(相似结构保持)
②用平衡的且保留了原始空间结构的二值码作为网络的监督信息训练得到网络参数,这样检索阶段用网络得到的就是具有近邻结构和平衡的码了,直接用sgn得到video的二值化表示
③对于网络,用pretrained提高结果准确性,用BN加速收敛,用data augment防止过拟合
④用两阶段训练方式,第一阶段学习到 平衡且相似性保持的二值码,第二阶段 训练网络参数
⑤通过最小化量化误差将特征提取和哈希函数学习结合起来,通过特征聚类将原始空间中的相似性结构保持
Deep Heterogeneous Hashing for Face Video Retrieval DHH
深度、hash,end-end、监督
1.动机:video必须当成一个整体进行建模,否则无法捕捉vieo中的变化;img和video的异构性需要解决,想办法将video从黎曼空间转换到欧式空间
2.难点:NN中结构化层的反向传播是不可微,hash码的获得有离散约束不可微
3.网络结构(两个NN,一个处理vedio:CNN+structural layer+FC Hash layer;另一个处理img:共享参数CNN+FC Hash layer):
①对img和video进行特征提取:使用参数共享的CNN对video(将video当成frames)和img进行特征提取
②对video建模(NN的一个层):使用cov模型,好处:1:可以将frames不同的video编码成相同大小,2.协方差能适应video中的变化----->对video特征提取得到D,C=D'D,此时C在黎曼流形上,使用Log将其转化回欧式空间
③使用NN得到统一的hash码通过全连接层 ,sigmod()松弛
4.损失函数:三元组损失函数,分别在img内,video内,immg-video间使用三元组损失
5,无离散优化,sigmod松弛
6.trick:结构化层的反向传播
问题:结构化层的推导
有源码!!!!改进方向:利用vedio中的时序信息和文中的二阶统计量信息的结合对模型进行改进。
以下内容为扩展:
A Proposal-based Approach for Activity Image-to-Video Retrieval APIVR
非hash、deep、supervised
1.难点:用image检索具有相同活动的video的难点是video中背景噪声(与video不相关)
2.动机:去除背景噪声的影响,减小img和video之间的模态差距
3.创新点:将多实例学习融入跨模态检索中、将self-attention的图卷积层引入网络层筛选干净的数据;通过生成-对抗策略减小模态差距,通过softmax loss减小模态差距;triplet loss的形式中用点到子空间距离保留几何结构信息
4.网络结构:
对img:CNN+FC
对video:R-C3D+FC+self-attention图卷积层
5.损失函数:geo-structral info preserved triplet loss +softmax loss + adversial classifacation loss
triplet loss:因为是img检索video ,所以构造的三元组形式(img,video+,video-),用点到子空间的正交投影距离 作为度量以保持几何结构
classification loss(softmax loss):加入鉴别性,减小模态差距
adversial loss:模态分类器,最小化分类误差提高鉴别器的能力,最大化分类误差得到模态差距小的video表示
6.非hash方法,检索时直接用生成的表示,video用权重平均的表示
7.trick:多实例学习,self-attention 的图卷积层
video还是当成关键帧生成和图像相同维度的表示,在适当的时候截断采用相对干净的表示进行下游任务
网络本身是没有意义的,是网络上加的损失函数使得网络具有学习能力,在本文中的GMIL中,采用了图卷积网络的结构,将每个video bag的相似性矩阵S加入传播;使用了self-attention机制,这样通过适当的loss,本文中三个loss项全部对该层进行了参数优化(theta_m)
Cross-Modal Video Moment Retrieval with Spatial and Language-Temporal Attention
SLTA
supervised,非hash,video片段检索,deep
1.任务:给定一个video和一段描述性text,要求根据text检索video中的一个片段
2.现有方法的缺陷:没有考虑local特征,检索的结果准确度不高,或者没有考虑global特征(没有限定context的大小,而是使用整个video作为context)易受噪声影响
3.难点:①识别video中的object和interaction(交互)作为local 特征;使用candidate moment的特征作为 global 特征;②重点理解query中的keywords
上述两个步骤都是用注意力机制提高精确度
4.网络结构:带注意力机制的 Faster R-CNN提取frame中的每个object,使用LSTM得到local nteraction特征用;C3D得到global特征;带注意力机制的Bi-LSTM强调query text中的关键字;用multi-modal processing module融合多特征(特征拼接);MLP得到每个candidate moment和query对(c,q)的权重和moment起止时间节点
5.损失函数:
对齐损失:positive pair之间的权重为正,negative pair之间的权重为负
定位损失:起止时间节点的一范数损失
6,非hash,非离散优化,local特征和global特征及query特征之间通过拼接得到候选moment的特征
7.创新点:
用query做注意力机制使用video moment中的local特征可以提高定位的精确度,
用global 特征做注意力机制使得更关注query中的关键字,使用一定长度的context而不是将整个viudeo作为context求得global特征降低噪声
8.未来工作(存在缺点):
①需要手动提取候选moment,应使用end-to-end方式处理数据
②考虑对连续帧建模,这样对于交互(interaction)中的时序有益