发面经攒人品

优质

小牛编辑

90浏览

2024-05-21

发面经攒人品

组里做特定领域的文生图模型，会涉及到语言模型的微调和出图底模训练，八股拷问不多，重点记录一下值得思考的问题。
1.DALLE和SD技术路线的不同？自回归/diffusion
2.SD的lora微调原理和位置？除了注意力投影还有Unet的卷积层。lora还有loCon/loha/lokr。
3.SDXL的双文本特征怎么处理？SD3不同文本端具有的不同token量怎么处理？CLIP-77/T5-512
4.除了交叉注意力的方式还有哪些文本信息注入？ DiT涉及到的in-context/cross attention/adaLN
5.为什么生成模型选用Unet？一是保留了相同分辨率上的信息，二是跳跃连接允许存在bottleneck的情况下保留信息（VAE生成会因为压缩造成部分消息丢失）
6.长文本输入怎么处理？通过切分成77（CLIP）长度分别抽取特征后拼接再投影。那0号和77号相同的位置编码怎么解决？讲了BERT给不同句子设置了区分的embedding，涉及到对于语言模型的微调。如果是在训练UNet时（冻结语言模型）该怎么处理？以插值的方式去构造新的位置编码，但效果不好。还有一些其他的方法，需要进一步了解。
还有一些不了解的点：
1.解耦（adapter）和非解耦（？）方式对模型微调的影响？
2.有没有了解过controlnet的condition的预处理的pipeline？
工作重点：长文本处理，文本图像的高度一致性，生成图像的精确性和美观度

发面经攒人品

热门公司

相关阅读

推荐文章

推荐题库

推荐问答