
3.10 小米算法实习生(大模型)二面(50min)
无脸男*2
自我介绍
项目的目的
混合精度微调,是混合什么精度
Qlora如何实现
冻结矩阵的反量化如何实现(面试官提示后答出来)
如果要用FP16精度转换到int4,如何使误差最小,实现过程?
介绍GRPO、PPO、DPO之间的区别
既然GRPO的会有方差问题,那GRPO应用到什么样的背景下,SFT要做怎样的处理,才能够使GRPO强化学习微调效果更好
GRPO的Group可以如何选取
手撕:MHA
反问:实习生在部门中负责的任务,做一些方案的实验研究,了解业务;计算资源,充足