快 STAR 大模型应用面经

优质

小牛编辑

82浏览

2024-08-07

快 STAR 大模型应用面经

一开始会以为问的很难，然后还是集中在项目，八股也比较常见，虽然问的还挺深，我没答出来很多。
1. 先写题，dp，两个字符串最长子序列
2.自我介绍
3. 挖项目挖了很久
4.peft 微调介绍一下
5. 常见的位置编码介绍一下
6.transformer 的 decoder 和 llama 有啥区别
7. 他们的位置编码有啥区别？三角函数位置编码和 ROPE 公式很像啊，他们是怎么实现不同的功能？（一个加 embedding 一个加 KQV，但是公式很像但是推理完全不一样吧，不太会答）
8. ADAM 比 SGD 优化在哪里（不会，没背这块）介绍一下梯度下降
9. 回归任务常用的 LOSS（我还搞成了自回归，然后说现在大模型都是用交叉熵。。。后面反应过来说离散分类任务交叉熵，连续值用 MSE）然后问我二分类用什么，我说 BCE。
10. 用 ADAM 的话，怎么预估 SFT 的显存占用？（这个问题好高频啊，感觉现在很喜欢问这种预估显存占用的问题。。。，我也没怎么回答，不太会）
时间太久了，就随便反问了一下。

快 STAR 大模型应用面经

热门公司

相关阅读

推荐文章

推荐题库

推荐问答