1,25分钟简历+项目周边八股,开始面了之后才知道现在都all in 大模型了,看到我简历上有大模型相关的就狂问大模型训练、微调、分布式等等细节,之前准备的高性能八股一点没问。。。
2,算法题是手撕attention算子,只用写前向不用写反向,基于numpy实现,还需要自己手写softmax,这个我之前看过llama的推理源码,能回忆起来一些,大致写出来了,但是v的shape有一些问题,最终跑通了但是shape不太对,面试官扫了一遍让我讲讲,讲完就完事了。
目前等结果,希望能过,对于我这种菜鸡来说提前批能多面一次就是胜利。