整体不到1h前20min讲了一个项目,没太详细问。
然后八股:
1. Llama2架构 (embedding, transformer block, LM head)
2. Llama2 transformer block里做了哪些改变 (RMSNorm, RoPE, SwiGLU, PreNorm不太清楚说全了没)
3. 为什么用RMSNorm不用LayerNorm (答参数量少,不太对)
4. 为什么用RoPE不用绝对位置编码,RoPE能表示绝对位置信息吗
5. 为什么现在主流都用Decoder-only而不是Encoder-decoder
6. LoRA原理,LoRA在用的时候可能会有哪些坑
7. QLoRA原理,QLoRA里用的是哪种量化,可以看作是一种超参数 (没太理解)。
最后手写一个快排,终止条件写反了愣了五分钟,回去等消息了