image caption 方法综述(二)

谢昂雄
2023-12-01

image caption领域方法综述(二)

image caption领域自从引入了深度学习以后发展十分迅速,通过2015年到2020年发表的论文,我将image caption领域的方法分为4类:基于注意力机制、基于对抗生产网络、基于强化学习以及基于密集描述,本篇参考了论文 图像描述技术综述[J]. 计算机科学, 2020, 47(12): 149-160.,这一篇介绍第二部分:基于对抗生产网络的方法。

二、基于对抗生产网络GAN

生成对抗网络是一种无监督的深度学习模型,近年来被广泛应用于人工智能领域,是目前最具有研究前景的方法之一。生成对抗网络模型中至少有两个模块:生成网络和判别网络。在训练过程中,生成网络生成尽量真实的数据以“欺骗”判别网络,并且通过判别网络的损失不断进行学习;而判别网络的任务就是区分生成的数据和真实数据。这两个网络通过动态的博弈学习,可以从无标签的数据中学习特征,从而生成数据。

1、《Towards Diverse and Natural Image Descriptions via a Conditional GAN》于 2017 年使用生成对抗网络通过控制随机噪声向量来生成多样化的描述。该模型分为两部分:第一部分是句子生成部分,在该部分中依然使用 CNN 来提取图像特征,使用 LSTM 来生成句子,区别是在生成单词时加入了随机噪声,并在描述句生成完成后将其输入到第二部分的判别器进行评估。第二部分用来做句子评估,使用 LSTM 对句子进行编码,与图像特征一起处理获得一个概率值,评估该描述句是否与人类描述相似,是否符合图像内容,最后使用策略梯度方法反向传播更新参数,使其获得最大的概率值,直到输出理想的描述句。(论文链接)

2、《Fast, diverse and accurate image captioning guided by part-of-speech》于2018年指出,基于 GAN 的图像描述 方法虽然可以实现描述语句的多样性,但准确率不足,并提出使用词性模板的方法来生成描述。实验表明该方法在保证描述语句多样性的同时,可以提高模型的运行速度和准确率。(论文链接)

3、《GroupCap: Group-Based Image Captioning with Structured Relevance and Diversity Constraints》提出一种称为 GroupCap 的基于组的图像描述方法,该方法通过一种视觉树解析器来构造单个图像的结构化语义相关性,并且利用树结构来计算图像之间的相关性和多样性,最终将相关信息发送到 LSTM 生成器中以生成图像描述。(论文链接)

4、《Adversarial semantic alignment for improved image captions》将图像描述看作条件式的对抗生成训练任务,同时提出了基于上下文 的 LSTM 识别器和注意力判别器,并且在对抗网络的生成和判别过程中分别融入注意力机制,以增强图像与句子之间的语义对齐,另外还使用自关键序列训练算法对 GAN 进行优化,以解决因文本的离散性而导致模型难以训练的问题。(论文链接)

5、《Unsupervised image captioning》首次提出使用完全无监督的训练方法来生成图像描述,该方法使用 MSCOCO 数据集的图像和一个由200多万个句子组成的语料库进行模型训练,图像和句子之间没有任何配对集合。该模型首先使用语料库训练一个对抗生成网络,从而使模型能够生成一个完整的句子,然后通过预先训练好的视觉编码器对图像进行编码, 并且通过图像特征和句子的双重映射对生成的句子不断进行重建,直到生成的描述句和图像互相匹配。该方法不需要成对的图像和描述句,对图像数据集完全没有依赖性。(论文链接)

6、《Multi-style image captioning with unpaired stylized text》提出一 种基于生成对抗网络的多风格图像描述模型,在生成器和判别器对抗训练生成描述句的同时,使用一个风格分类器将描述句分类为不同的风格,通过反向翻译模块来保证句子和描述的互相匹配,最终使用 softmax 对整个模型进行端到端的优化。(论文链接)

7、《MemCap: Memorizing Style Knowledge for Image Captioning》于 2020 年 提 出 MemCap 模型,由于描述语言风格无法从图像中获取,该模型通过设置一个包含语义风格的存储记忆模块,在生成描述时检索对应的描述风格,能够在保证句子准确的前提下生成带有明显语言风格的图像描述。实验表 明,在多风格评价准则下,MemCap模型的效果优于 MSCap 模型。基于生成对抗网络的图像描述方法在生成风格化描述方面有着广阔的前景,并且对数据集的精度没有过多的依赖,这也是图像描述任务未来的发展趋势。生成对抗网络虽然由于训练自由度高等问题导致准确率相对较低,但是因为具有无监督训练和反向传播机制等优点,依然成为人们研究的热点。(论文链接)

 类似资料: