本篇论文采用的baseline不是CE,而是2017 ACM的《lobally and locally consistent image completion》,那篇论文以CE为baseline,引入了全局鉴别器和局部鉴别器。这篇文章提出了上下文注意力层,使得可以关注到距离缺失区域较为遥远的像素点;此外,作者摒弃了之前常用的DCGAN,而是使用创新地WGAN-GP,还采用了两个encoder,一粗一细。
作者是在《lobally and locally consistent image completion》的基础上进行改进的,输入输出的shape都相同,生成网络包含两个阶段,由粗到细进行补全,第一阶段的补全仅仅使用重建损失作为损失函数,卷积过程中借用了《lobally and locally consistent image completion》膨胀卷积的方法,实现初步的补全,然后再精细补全,损失函数所有改进,使用了重建损失和WGAN-GP联合损失,其中WGAN-GP损失使用全局的和局部的进行联合,这还是因为受到了《lobally and locally consistent image completion》的启发。由于使用了GAN,因此第二个网络有全局效果,使得整个补全内容与整个场景内容契合。
注:(1)感知损失虽然可能会使得补全结果有点模糊,但是可以使得内容贴切,是不可或缺的。
(2)作者觉得Perceptual loss, style loss and total variation loss没啥用