滴滴大模型面经

优质

小牛编辑

79浏览

2024-09-14

滴滴大模型面经

本人只做点业务数据sft, 做的更加偏向于粗糙业务，直接被拷打麻了，望佬看到可以给我指点一下
1. 现在有一个非常完备的sft指令集，你只能选择1w条，你如何选择数据来使模型的能力更加提升+完备？
2.我们知道sft的时候尽量不要注入知识给模型，因为只希望sft可以提升模型的指令遵循的知识，注入知识的话，可能会导致后面使用的时候模型容易出现幻觉，那我们怎么确保自己选择的这1w条数据没注入知识给模型呢？
3.7b和13b模型微调同一批数据，学习率哪个大？
4. Pretrain/sft/ppo学习率怎么变换？
5. 学习率和batch大小变化一致吗？
6. 做表征学习的时候，模型坍塌的原因？
7. 为什么做rm的时候，用不同的小模型大模型来采样生成后训练出来的rm会比以前那种方法奏效？这很反直觉，因为按照直觉来说的话，这种方式可能会让rm偏向某个权威的模型
8. 现在有很多种方法，有做完pt直接做rlhf的，也有按班就步的pt-sft-rlhf的，还有直接不做rlhf的，你觉得为什么这些方法都有效，你觉得是什么原因造成的？
#滴滴##秋招##面经##算法#

滴滴大模型面经

热门公司

相关阅读

推荐文章

推荐题库

推荐问答