1. 讲一下大模型从0到1的训练过程
2. 为什么不能跳过SFT去做RLHF
3. 有哪些提高predict质量的方法(self-consist、cot、few-shot等)
4. 在pretrain中同时有代码和文字知识,在SFT时学习新的代码和文字知识哪个更难?(从pretrain的指标(PPL)上分析)
5. 在做训练时出现复读现象如何debug?怎么解决推理时的重复现象?
另外求教一下第2题是为什么 #实习,投递多份简历没人回复怎么办# #实习,投递多份简历没人回复怎么办#
#牛客解忧铺# #牛客在线求职答疑中心# #不给转正的实习,你还去吗# #大模型#