text to image 从文本生成图像（以GAN为主）

蒯宏达

2023-12-01

概述

背景

图像生成是人工智能中一个重要的研究领域，现在的图像生成效果已经能够达到以假乱真的地步，但是不能按照要求正确的生成图像。所以研究者们将目光转向了从文本生成图像(Text2Image)，它可以从描述图像的文本中生成目标图像。

目地

定义：根据给定的文本条件(Text)准确的生成一张精度足够高的图像(Image)。

因为传统的图像生成只是简单的通过学习模拟真实图像的分布，再经过优化处理从而生成和真实图像相似的图像，相当于一个判别任务(生成图像能够和真实图像分到一类中即可)，而基于描述生成逼真图像却要困难得多，需要更多的训练。在机器学习中，这是一项生成任务，比判别任务难多了，因为生成模型必须基于更小的种子输入产出更丰富的信息（如具有某些细节和变化的完整图像）。

分类

近年来图像生成邻域不断发展，出现了许多优秀的模型和方法，目前来说，使用最多的模型应当是GAN。它的效果也是最好的，从方法的层面上来分，可以分为以下两类：
Single-stage：学习自然语言和真实图像的关系，并且训练之后能够生成一张类似真实图像的高质量图像，一次生成图像即完成任务，这样的话速度较快，网络结构相对简单一些。
Multi-stage：最初是StackGAN和StackGAN++，通过首先生成低质量的初始图像，再结合注意力机制，多次精炼生成图像，达到将其细化为高分辨率图像的目的。这样的话网络的结构可能比较庞大，需要的计算力较高，训练速度较慢，但是效果较好。

发展

在图像生成的发展过程中，涌现过许许多多的新奇思路和精妙构想，在此主要以GAN模型为例，列举一些经典的论文进行分析。

(1)Generating images from captions with attention(使用注意力机制的从文本生成图像)

论文作者： Elman Mansimov, Emilio Parisotto, Jimmy Lei Ba & Ruslan Salakhutdinov
会议： ICLR. 2016.
论文地址： https://arxiv.org/pdf/1511.02793.pdf
代码地址： https://github.com/mansimov/text2image
论文简介： 文章的核心在于提出了一个align-DRAW，引入了一个深度重复注意力写入模块来扩展VAE。利用GAN在最后一步来优化图片。总的来说
该模型生成的图像不够真实，物体比较模糊，生成的图像是低分辨率36x36的，因为VAE是直接计算生成图片和原始图片的均方误差，而不是像GAN那样对抗学习。

(2)Generative Adversarial Text to Image Synthesis(生成对抗式从文本生成图像)

论文作者： Reed, Scott, Akata, Zeynep, Yan, Xinchen, Logeswaran, Lajanugen, Schiele, Bernt, and Lee, Honglak.
会议： ICML 2016
论文地址： https://arxiv.org/pdf/1605.05396.pdf
代码地址： https://github.com/zsdonghao/text-to-image
论文简介： 文章文本根据DC-GAN模型，提出改进两点改进，GAN-CLS和GAN-INT，增强判别器学习文本内容和图像内容对应关系的能力并弥补了文本描述较少的缺点，生成了肉眼可以接受的64x64分辨率的图像，但是细节部分还是不够完善而且模型上只有简单的一个GAN结构，如果盲目的上采样增加分辨率，会导致GAN训练不稳定，并且产生无意义的输出，也就是模型限制了分辨率的大小。

(3)Learning what and where to draw(学习画什么和画在哪)

论文作者： Reed, Scott E, Akata, Zeynep, Mohan, Santosh, Tenka, Samuel, Schiele, Bernt, and Lee, Honglak.
会议： NIPS 2016
论文地址： https://arxiv.org/pdf/1610.02454.pdf
代码地址： https://github.com/reedscot/nips2016
论文简介： 文章主要分为两个部分：
1.where：采用基于边界框的文本到图片的生成模型（Bounding-box-conditional text-to-image model）
2.what：采用基于关键点的文本到图片的生成模型（Keypoint-conditional text-to-image model）
文章证明了图片中目标对象的（额外信息）位置和尺寸可以帮助提升生成图像的质量和对文本的解释质量,生成了128x128的高分辨率图像。

(4)Plug & play generative networks: Conditional iterative generation of images in latent space(即插即用的生成网络：潜在空间中图像的条件迭代生成)

论文作者： Nguyen, Anh, Clune, Jeff, Bengio, Yoshua, Dosovitskiy, Alexey, and Yosinski, Jason.
会议： CVPR 2017
论文地址： https://arxiv.org/pdf/1612.00005.pdf
代码地址： https://github.com/Evolving-AI-Lab/ppgn
论文简介： 文章主用预训练的分类器当作编码器对图片x提取特征h，这个h当作初始输入，然后通过不断迭代去修改h的值，去获得效果更好的图片
需要多次低效的迭代来优化，最终生成了227x227的高分辨率图像

(5)StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks(StackGAN:使用堆叠的生成对抗式网络从文本生成照片般类似的图像)

论文作者： Zhang, Han, Xu, Tao, Li, Hongsheng, Zhang, Shaoting, Wang, Xiaogang, Huang, Xiaolei, and Metaxas, Dim- itris N.
会议： ICCV 2017
论文地址： https://arxiv.org/pdf/1612.03242.pdf
代码地址： https://github.com/hanzhanggit/StackGAN
论文简介： 文章提出了StackGAN，实现了根据描述性文本生成高分辨率图像，提出了一种新的条件增强技术，增强训练过程的稳定性、增加生成图像的多样性，通过多个实验证明了整体模型以及部分构件的有效性，为后面的模型构建提供了有益信息。主要包括两个阶段：
Stage-I GAN：根据给定的文本描绘出主要的形状和基本颜色组合；并从随机噪声向量中绘制背景布局，生成低分辨率图像
Stage-II GAN：修正第一阶段生成的低分辨率图像中的不足之处，再添加一些细节部分，生成高分辨率图像

(6)StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks(StackGAN ++：具有堆叠式生成对抗网络的逼真的图像合成)

论文作者： Zhang, Han, Xu, Tao, Li, Hongsheng, Zhang, Shaoting, Wang, Xiaogang, Huang, Xiaolei, and Metaxas, Dim- itris N.
会议： ICCV 2017
论文地址： https://arxiv.org/pdf/1710.10916v3.pdf
代码地址： https://github.com/hanzhanggit/StackGAN-v2
论文简介： 文章是之前的Stack-GAN的改进版本，虽然仍然是采用多阶段逐级提高生成图像的分辨率的方式，但是不同于之前的两阶段分开训练，StackGAN++可以采用end-to-end的方式进行训练，提出了一种新的正则化方式color-consistency regularization来帮助在不同的分辨率下生成更一致的图像；既可以用于text-to-image这样的条件图像生成任务，也可以用于更一般的无条件图像生成任务，均可以取得比其他模型更优异的结果

(7)AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks(AttnGAN：带有注意的生成对抗网络细化文本到图像生成)

论文作者： Xu, Tao, Zhang, Pengchuan, Huang, Qiuyuan, Zhang, Han, Gan, Zhe, Huang, Xiaolei, and He, Xiaodong.
会议： CVPR, 2018.
论文地址： https://arxiv.org/pdf/1711.10485.pdf
代码地址： https://github.com/taoxugit/AttnGAN
论文简介： 文章主AttnGAN是端到端的、注意力驱动的、多阶段精细化的、用于细粒度文字到图像生成的架构，相比stackGAN，它提供了端到端的训练、并且注意到了句子级别的细粒度的信息，在生成网络中引入了注意力机制在绘制图像的不同区域时，会关注到和该子区域最相关的文本区域
使用了DAMSM，其功能是计算生成的图像和句子之间的相似度，可以作为loss直接训练，让GAN可以从图像和文本匹配的角度和生成的图片是否真实的角度来训练生成器和判别器

(8)MirrorGAN: Learning Text-to-image Generation by Redescription(MirrorGAN：通过重新定义学习文本到图像的生成)

with Stacked Generative Adversarial Networks(学习画什么和画在哪)
论文作者： Tingting Qiao, Jing Zhang, Duanqing Xu, and Dacheng Tao
会议： CVPR 2019
论文地址： http://openaccess.thecvf.com/content_CVPR_2019/papers/Qiao_MirrorGAN_Learning_Text-To-Image_Generation_by_Redescription_CVPR_2019_paper.pdf
代码地址： 暂无
论文简介： 文章该模型结合了“全局到局部”的注意力机制和保留语义的text-to-image-to-text框架。该模型由三个模块构成：STEM（语义文本嵌入模块，该模块产生文本或句子层次的嵌入），GLAM（全局到局部的注意力模块，该模块从粗到细生成目标图像，平衡局部文字注意力和全局句子注意力以增强生成图像的多样性和语义连续性），STREAM（语义文本再生和对齐模块，该模块对生成的图像再次描述）。

(9)DM-GAN: Dynamic Memory Generative Adversarial Networks for Text-to-Image Synthesis(DM-GAN：用于文本到图像合成的动态记忆生成对抗网络)

论文作者： Minfeng Zhu,Pingbo Pan,Wei Chen Yi Yang,State Key Lab of CAD&CG, Zhejiang University Baidu Research Centre for Artificial Intelligence, University of Technology Sydney
会议： CVPR 2019
论文地址： https://arxiv.org/abs/1904.01310?context=cs
代码地址： https://github.com/MinfengZhu/DM-GAN
论文简介： 文章主要创新点是提出一个动态记忆模型（a dynamic memory module）去提炼图像，这个模型主要包括以下几个模块：
1.Memory Writing Gate:计算上一层的feature map与单词嵌入向量之间的attention
2.Key-Value Memories:通过Key来检索最相关的Value，并以权重总和的形式输出
3.Responese Gate:将权重和与 feature map融合输出一个新的image feature

参考

https://zhuanlan.zhihu.com/p/52272086
https://blog.csdn.net/weixin_43551972/article/details/102983978
https://blog.csdn.net/Forlogen/article/details/91473574
https://blog.csdn.net/sean2100/article/details/84032930

未完待续…