参考:文本生成图像!GAN生成对抗网络相关论文大汇总
介绍了关于GAN生成对抗网络的相关Text-to-Image论文,将其分类为Semantic Enhancement GANs, Resolution Enhancement GANs, Diversity Enhancement GANs, Motion Enhancement GANs四类,介绍了代表性model,如下图所示。
详细内容:https://www.cnblogs.com/zyyz1126/p/14474382.html 末尾
以conditional GANs为基础,discriminator的auxiliary task。图片diversity高。基于负采样。
ControlGAN。可以控制图片局部生成,一个word-level的generator。有github代码:https://github.com/mrlibw/ControlGAN。更多的可以看同一作者写的ManiGAN。
详细内容:https://www.cnblogs.com/zyyz1126/p/14495753.html
github
content parsing。设计了一个memory structure来存储一个单词对应的图片。使用了一个conditional discriminator来判断文本图片局部的联系。
详细内容:https://blog.csdn.net/qq_26136211/article/details/115067516
github没有训练代码。
通过contrastive learning最大化图片对的互信息。没有object-level的额外注释、单层模型。
基于Attention GAN的改进。引入循环机制,将生成的图片翻译回文本。以BERT预训练的word embedding为basic text featurizer。
使用文本控制image-to-image特定部分的改变,比如“把头发的颜色变成红色”。
提出了一个只有一对discriminator和generator的简化模型,一个新的正则化方法减少计算成本,一个深入融合文本和图像的fusion block。
现有的生成是先生成轮廓,在逐步细化。本论文针对当生成的轮廓效果不好时,引入一个dynamic memory module来修改生成的轮廓。
详细内容:https://blog.csdn.net/qq_26136211/article/details/115048490
github
学习了文本中的两个部分:content(例如color, composition)和style description(例如location, quantity,size等),提出dual adversarial inference(双重对抗性推理)。
单层,单generator,单discriminator。引入deep residual networks 和entence interpolation strategy来学习一个平滑的条件空间。Image editing。
基于不直接描述图片的visual content长文本生成。食谱数据集。模型基于StackGAN-v2。
代码:https://github.com/netanelyo/Recipe2ImageGAN.
文本控制image-to-image,数据集:COCO。
考虑了每个stage的交互。 knowledge distillation知识蒸馏。
介绍了MirrorGAN:text-to-image-to-text framework,思想有点类似于CycleGAN,但是是监督学习。除了引进了Image Caption之外没有什么创新点。代码
通过使用特定的mode-seeking loss function 来规避图片生成过程中发生的mode collapse。
文本控制image-to-image生成。ManiGAN分为两个部分:ACM建立要修改部分的text到image的映射,并对不需要修改的部分进行编码,DCM完成修改。数据集:Caltech Birds (CUB) , Microsoft COCO。有代码。
是controlGAN的改进。
在第一层添加了perceptual understanding来优化初始化图片。
不知道是什么论文,有点奇怪。待看。
Object-driven的注意力GAN,专注于以对象为中心的text-to-image生成。数据集COCO。代码
文本控制image-to-image生成。
使用Segmentation作为额外输入。
新的评估标准Semantic Object Accuracy (SOA)评断文本和图片的语义一致性,即根据文本的内容检测图片中是否包含相关物体。 代码
消除语义混乱。数据集:Caltech Birds (CUB) , Microsoft COCO。
SAM-GAN, Self-Attention supporting Multi-stage Generative Adversarial Networks,解决问题的出发点类似DM-GAN,都是针对initial image不好的情况。
attention-based encoder学习word到pixel,条件自回归decoder学习pixel到pixel和图像的生成。使用了Structural Similarity Index评估。数据集:COCO,MNIST-with-captions。
文本控制人像的image-to-image生成。用VQA Perceptual Score评估。(效果看起来不是很好)
文本控制图像修复。有代码。
文本生成图片再生成视频。分两步训练,先根据文本生成高质量的单帧图片,再生成连续帧。
详细内容:https://blog.csdn.net/qq_26136211/article/details/115049472
先从图片生成文本,在用到text-to-image 的训练。数据集:LSUN-bedroom
提出新的评估metrics,可以评估文本图像的语义一致性。
图片文本互相转化。轻量级模型。使用了transformer。
使用了一个全新的数据集,它详细描述了图片中每个物体的位置和信息,通过用户提供的图片详细描述和Mouse Trace来生成Segmentation,再通过Segmentation生成图片。效果还行。
text-guided Image Manipulation。效果挺好。
text-guided 图像修复。代码
2021新的一篇综述。
结合了StyleGAN和预训练的Image-Text模型CLIP,效果很好。 代码