1、自我介绍
2、介绍强化学习项目
状态、动作空间怎么设置的?
强化学习算法分为哪几类?PPO是On policy还是off policy?off policy和on policy的区别是什么?off policy相比于on policy有哪些优点和缺点?
3、机器学习
对哪些机器学习算法比较熟悉?特征怎么选的?lgb超参数怎么调的?特征是越多越好吗?
4、实习
CPT用了多少数据?什么机器配置?如果训练中途崩溃了模型和数据怎么加载?怎么评估的?
SFT什么场景?怎么评估的?
baichuan和qwen的区别有哪些?MHA、GQA、MQA的区别?
超参怎么调整的?
5、手撕MHA