当前位置: 首页 > 面试经验 >

快 STAR 大模型应用面经

优质
小牛编辑
62浏览
2024-08-07

快 STAR 大模型应用面经

一开始会以为问的很难,然后还是集中在项目,八股也比较常见,虽然问的还挺深,我没答出来很多。
1. 先写题,dp, 两个字符串最长子序列
2.自我介绍
3. 挖项目挖了很久
4.peft 微调介绍一下
5. 常见的位置编码介绍一下
6.transformer 的 decoder 和 llama 有啥区别
7. 他们的位置编码有啥区别? 三角函数位置编码和 ROPE 公式很像啊,他们是怎么实现不同的功能?(一个加 embedding 一个加 KQV,但是公式很像但是推理完全不一样吧,不太会答)
8. ADAM 比 SGD 优化在哪里(不会,没背这块)介绍一下梯度下降
9. 回归任务常用的 LOSS(我还搞成了自回归,然后说现在大模型都是用交叉熵。。。后面反应过来说离散分类任务交叉熵,连续值用 MSE)然后问我二分类用什么,我说 BCE。
10. 用 ADAM 的话,怎么预估 SFT 的显存占用?(这个问题好高频啊,感觉现在很喜欢问这种预估显存占用的问题。。。,我也没怎么回答,不太会)
时间太久了,就随便反问了一下。
 类似资料: