组里做特定领域的文生图模型,会涉及到语言模型的微调和出图底模训练,八股拷问不多,重点记录一下值得思考的问题。
1.DALLE和SD技术路线的不同? 自回归/diffusion
2.SD的lora微调原理和位置?除了注意力投影还有Unet的卷积层。lora还有loCon/loha/lokr。
3.SDXL的双文本特征怎么处理?SD3不同文本端具有的不同token量怎么处理?CLIP-77/T5-512
4.除了交叉注意力的方式还有哪些文本信息注入? DiT涉及到的in-context/cross attention/adaLN
5.为什么生成模型选用Unet?一是保留了相同分辨率上的信息,二是跳跃连接允许存在bottleneck的情况下保留信息(VAE生成会因为压缩造成部分消息丢失)
6.长文本输入怎么处理?通过切分成77(CLIP)长度分别抽取特征后拼接再投影。那0号和77号相同的位置编码怎么解决?讲了BERT给不同句子设置了区分的embedding,涉及到对于语言模型的微调。如果是在训练UNet时(冻结语言模型)该怎么处理? 以插值的方式去构造新的位置编码,但效果不好。还有一些其他的方法,需要进一步了解。
还有一些不了解的点:
1.解耦(adapter)和非解耦(?)方式对模型微调的影响?
2.有没有了解过controlnet的condition的预处理的pipeline?
工作重点:长文本处理,文本图像的高度一致性,生成图像的精确性和美观度