可以把30fps的进一步插帧到480fps(16倍插帧)
英伟达的Super SloMo只用在了真实拍摄的视频上,而这项研究却可以扩展到常见的任何类型视频:电影、定格动画、 动画卡通等等。
DAIN的全称是Depth-Aware Video Frame Interpolation,即深度感知视频帧插值。
提出了一种通过探索深度信息来检测遮挡的方法。
开发了一个深度感知光流投影层来合成中间流,中间流对较远的对象进行采样。此外,学习分层功能以从相邻像素收集上下文信息。
给定两个时刻的输入帧,先估计光流和深度图,然后使用建议的深度感知流投影层生成中间流。
然后,模型基于光流和局部插值内核对输入帧、深度图和上下文特征进行扭曲,合成输出帧。
DAIN延续了以往Flow-based视频插帧的基本框架,由5个sub-network和2个自定义的layer组成
DAIN分别使用PWC-NET和MegaDepth(hourglass结构)估计光流图和深度图
很多的flow vector可能会在 t tt 时刻同时经过同一个位置
本文提出了基于深度图的flow聚合
通过此方法,the projected flow倾向于从closer objects中采样像素,而减少被遮挡像素occluded pixels的贡献(occluded pixels有更大的深度值)。
Adaptive warping layer 是作者之前的文章中MEMC-NET[1]提出的,首先通过kernel estimation network在图像的每一个像素位置预测出一个4x4的kernel,与bilinear kernel结合起来完成新像素值的计算。
Frame Synthesis Network
此网络更多的是进行细节增强,使得生成的帧更sharp
本方法比较依赖depth estimation的精度来检测遮挡,有些场景下depth预测的不准,会出现blurred results with unclear boundaries。
正向扭曲操作是一种线性插值,会存在空洞(正向映射没有像素点映射到某像素点)和多映射(正向映射多个像素点映射到某像素点)的融合问题。
DAIN结合深度信息来解决上述问题:对于多映射像素点则基于深度信息进行权重估计,深度较小的前景像素具有较高权重;对于空洞像素点,则找到空洞周围最近邻的有光流的四个像素点,然后基于深度进行加权融合。
虽然结合深度信息更好的进行权重估计,但本质上还是没有解决以上两个问题,并且深度估计本身也是一个很难的问题,深度估计的准确性对最终光流的估计有很大影响。