paper名字太长,标题放不下,全名是《Online Detection of Long-Term Daily Living Activities by Weakly Supervised Recognition of Sub-Activities》。通过子活动弱监督识别的长时间的日常行为活动的在线监测。
解决的问题:由于日常活动的类内差异大,并且对于长时间的日常活动来说,里面所包含的子活动之间的关系复杂,因此较难检测。
本文提出的方法是:我们认为长时的活动是由一系列的短时子活动组成的,因此可以使用一个识别子活动的分类器来预测一个正在进行的活动。
为了得到精确的划分,我们使用一个基于马尔可夫模型贪心后处理技术。
并且在DAHLIA和DAADRD数据集上面做了验证。
本文提出的方法是一个二阶段方法。第一阶段是基于帧特征进行聚类得到子活动的分类,从而能够训练一个识别子活动的分类器。第二阶段是优化活动边界的噪声监测来提高时间分割的精度。
K. Avgerinakis, A. Briassouli, and I. Kompatsiaris. Activity detection and recognition of daily living events. In Health Monitoring and Personalized Feedback using Multimedia Data. 2015.
这篇文章通过人的动作来实现监测,把连续帧分块送入动作识别算法中处理。
Y. Li, C. Lan, J. Xing, W. Zeng, C. Yuan, and J. Liu. Online human action detection using joint classification-regression recurrent neural networks. In ECCV 2016.
这篇文章使用LSTM同时进行分类和时间划分。
F. Negin, S. Cogar, F. Bremond, and M. Koperski. Generating unsupervised models for online long-term daily living activity recognition. In ACPR 2015. IEEE
F. Negin, M. Koperski, C. F. Crispim, F. Bremond, S. Cos¸ar,
and K. Avgerinakis. A hybrid framework for online recognition of activities of daily living in real-world settings. In AVSS 2016. IEEE.
这两篇文章使用无监督的方法基于人的运动轨迹来监测活动。
the DAily Home LIfe Activity Dataset (DAHLIA)数据集是至今为止最大的用于日常活动检测的数据集。并且已经有了一些方法的baseline。
Online Efficient Linear Search (ELS)使用滑窗方法将三维骨架信息形成码书然后训练SVM分类器。
Max-Subgraph Search将动作序列表示成时空图像,然后从中识别出可以反映目标动作的最大的子图。
我们提取以人为中心的局部图像的卷积特征,来去掉无关的背景信息以及减小卷积计算量。我们使用SSD来获得人的bounding box,然后在左右和下部做20像素的padding,然后resize到224x224,这样可以获得一些人周围的语境信息。resized之后的图像经过ResNet-152处理得到2048维的特征。然后使用max pooling和min pooling融合时间上下文信息。
我们将一个视频序列切分成250帧的小段,每段前后有50帧的重叠。通过这样的划分,大部分的分段都会包含有意义的子活动。然后将这些250帧的小段经过上述的特征提取操作,然后把这些特征concat起来。
接着使用k-means对这些特征分组得到子活动子字典。由于子活动个数k是未知的,我们使用Bayesian Inference Criterion (BIC)model selection来自动生成k。
然后我们使用SVM对划分好的k个子活动进行分类。
用同样的方法对其他日常活动生成子活动分类器,然后使用250帧的滑窗生成帧级别的标记,根据250帧的识别结果作为最后一帧的标记。
由于上述的子活动检测器是基于局部窗口信息来生成的帧级别识别,一个后处理优化过程可以关注整个活动的上下文内容。因为上述的帧分类过程可能存在错误识别,往往发生在两个活动的模糊边界上,或者两个包含相同子动作之中。
我们基于活动持续时间和子活动次序来构建贪心后处理方法。不妨认为正常的日常活动是有一定的时间顺序的,因此马尔可夫模型可以对这时间序列建模。
我们训练一个模型,该模型学习了子任务之间的关系,把两两关系用一个概率数值来表示,在后处理过程中,如果我们在子活动识别阶段得到的两个连在一起的子活动
i
i
i和
j
j
j他们的相关程度低于某个数值,我们就认为
j
j
j为误识别,并把
j
j
j作为错误结果,并把j原本的帧归类为
i
i
i.