美团腾讯百度淘天大模型相关日常实习面经

优质

小牛编辑

104浏览

2023-10-27

美团腾讯百度淘天大模型相关日常实习面经

一些答的不好的八股问题总结忘了很多想到再更新答案和问题

1. llama 7b 为什么比其他基座好，与gpt3比做了什么改进：数据上质量更高，结构上用的RoPE+SwiGLUE

2. GQA可以给训练加速吗：不可以，

3. 检索增强怎么做的：

4. 长度外推除了ROPE还有什么方法（长度外推一个是训练时数据没那么长导致的一些问题，一个是计算复杂度太高没那么多资源）：局部注意力（平移不变性，感受野，window），插值，flashattetion, GQA

5. Baichuan和chatglm2有什么不同，数据上，训练上，结构上

6. Visualglm图片怎么处理的：blip-qformer

7. Transformer结构，一层层讲：

8. Visualbert什么结构：前text后visual，用faster-cnn和resnet-50提取视觉特征

9. RLHF流程：一个actor,一个critic,一个reward model。将sft后的模型输出后生成回答，回答+答案输入RW得到分数（取最后一个token投影一下）

10. Reward model怎么训练的，损失函数是什么：

11. 提示工程的fewshot有什么做法：聚类

12. Chatglm2与1有什么区别：prefix-decoder回归casual-decoder（原因1.多轮对话用prefix-decoder需要构造多个数据来训练，而casual可以直接用整个多轮对话数据，等效，且各个对话的权重不一样）（这个改动导致了2维编码的去除）；gelu->swiglu；RMSnorm；flashattention；MQA

13. Chatglm2对话权重不一样的原因：

14. 为什么chatglm系列的用ptuning比lora好：都是清华一个实验室出的，配套效果吧

15. Ptuning是怎么样做的大概讲讲：前面cocat可学习参数，多了一个MLP层，代码中在k,v矩阵中concat矩阵参数

16. Lora怎么做的？为什么只调q,v矩阵或者q矩阵？别人实验这样做不代表在你这个场景下这样做就是对的？：

17. 为什么模型都聚焦于decoder-only而不是encoder-only或者encoder-decoder：

18. Self-consistency是什么

#面经##日常实习##日常实习许愿##八股##算法#

美团腾讯百度淘天大模型相关日常实习面经

热门公司

相关阅读

推荐文章

推荐题库

推荐问答

美团 腾讯 百度 淘天 大模型相关 日常实习面经

热门公司

相关阅读

推荐文章

推荐题库

推荐问答

美团腾讯百度淘天大模型相关日常实习面经