问的很细很深,狠狠拷打了80分钟,这个组做LLM pretrain的,我主要会rl,nlp缺乏点,一面凉
- 自我介绍
- 项目
- 微调模型训练数据来源?
- LORA的理解
- Ptuning和全量微调对比
- RLHF全流程
- 写出RLHF的优化目标公式
- 目标公式中衰减因子的作用,取大取小有什么影响?
- RLHF的目标公式可以加入什么其他的项?
- 熵正则项是如何加入的?
- KL散度理解?
- RLHF中PPO算比率相对什么来算?
- 其中对数概率的作用?
- 马尔科夫决策过程的定义,有哪些参数变量需要考虑?
- Reward model 训练的loss是什么?
- 模型为什么会胡言乱语?根源在哪?可以考虑如何解决?
- 模型微调会性能下降为什么还需要这一步?
- 文本数据处理到进入模型的整个过程?
- 分词和向量化的过程?
- 模型微调过程中的调参?
- 1.8b和7b使用中的区别?选择?
- Recall,Precision的计算
- 训练数据量级?
- 如何把控数据质量?
- 场景题,在处理数据的时候面对有违规的语料(如黄暴内容)如何平衡Recall,Precision指标
- 对大模型整个发展趋势如何理解?
- 你认为LLM的数据质量的关键在于什么?
- 算法题一,easy 考察正则表达式
- 算法题二,dp ,medium *********
- 算法题三,栈,easy **********
#大模型##LLM#
#算法##实习#