背景:楼主主要做多模态分类任务方面的研究,秋招主要投NLP和多模态岗位,如果机器学习岗位描述和我相符我也会投
我建议每一个秋招人都投投超参数科技磨练磨练,面试官人都很有耐心,问的也很细,答不上来还会提醒你,会让你对自己的项目细节有一些新的思考,听了宣讲觉得他们公司氛围也很好很年轻,奈何人家不要我
流程:投递岗位为自然语言处理研究员,投递时间n,一面时间m=n+16天,二面时间k=n+23天=m+7天,二面后一直排序,最终无疾而终
一面:
1. 自我介绍
2. 介绍一个项目
以下问题均针对不同项目的细节提出:
3. 多模态的任务,在BERT的输入,图片的输入是怎么处理的?
4. 图文匹配还有一些好用的loss可以了解一下:文本可以在BERT一侧像预训练一样加上一个MLM的loss;image text alignment,图片和文本对齐的loss
5. 图文匹配时,loss是采用的是像clip一样的对比学习的方式嘛?对比学习就是在同一个batch内组负样例。
6. 写二分类的交叉熵公式,多分类的交叉熵公式怎么写?
7. BERT一层encoder的transformer block包含了哪些元素,或者说算子是如何forward的?
8. BERT用的Normalization是LN,那LB和BN的区别是什么?为什么在文本中用LN更好,而在图片中要跨batch做normalization?
9. LN的公式?为什么要先把他映射为均值为0,方差为1,有给他乘上增益,加上偏置呢(为什么要再做scale)?
10. 写一下self-attention的公式
11. BERT用的优化器是什么?(Adam)它的优点是什么?
12. 蒸馏的temperature了解嘛
13. student学习的时候,是直接学习的teacher的预测值,还是预测值和label都有学习到?
14. 模型的loss是怎么算的?
15. word2vec里面,因为词表数过多,训练效率的问题有哪两种优化策略?(负采样;层次softmax,将词表构建为树的模型,从O(n)缩到O(logn))
16. LSTM在解决梯度爆炸或者梯度消失问题上有什么特点?三个门用到的激活函数是什么?(sigmoid,门是为了保证概率在0~1之间才能控制输出多少量)
17. 编程题:最长递增子序列