秋招回顾1：超参数科技算法岗面经（上）

优质

小牛编辑

150浏览

2023-03-28

秋招回顾1：超参数科技算法岗面经（上）

背景：楼主主要做多模态分类任务方面的研究，秋招主要投NLP和多模态岗位，如果机器学习岗位描述和我相符我也会投
我建议每一个秋招人都投投超参数科技磨练磨练，面试官人都很有耐心，问的也很细，答不上来还会提醒你，会让你对自己的项目细节有一些新的思考，听了宣讲觉得他们公司氛围也很好很年轻，奈何人家不要我
流程：投递岗位为自然语言处理研究员，投递时间n，一面时间m=n+16天，二面时间k=n+23天=m+7天，二面后一直排序，最终无疾而终
一面：
1. 自我介绍
2. 介绍一个项目
以下问题均针对不同项目的细节提出：
3. 多模态的任务，在BERT的输入，图片的输入是怎么处理的？
4. 图文匹配还有一些好用的loss可以了解一下：文本可以在BERT一侧像预训练一样加上一个MLM的loss；image text alignment，图片和文本对齐的loss
5. 图文匹配时，loss是采用的是像clip一样的对比学习的方式嘛？对比学习就是在同一个batch内组负样例。
6. 写二分类的交叉熵公式，多分类的交叉熵公式怎么写？
7. BERT一层encoder的transformer block包含了哪些元素，或者说算子是如何forward的？
8. BERT用的Normalization是LN，那LB和BN的区别是什么？为什么在文本中用LN更好，而在图片中要跨batch做normalization？
9. LN的公式？为什么要先把他映射为均值为0，方差为1，有给他乘上增益，加上偏置呢（为什么要再做scale）？
10. 写一下self-attention的公式
11. BERT用的优化器是什么？（Adam）它的优点是什么？
12. 蒸馏的temperature了解嘛
13. student学习的时候，是直接学习的teacher的预测值，还是预测值和label都有学习到？
14. 模型的loss是怎么算的？
15. word2vec里面，因为词表数过多，训练效率的问题有哪两种优化策略？（负采样；层次softmax，将词表构建为树的模型，从O(n）缩到O(logn)）
16. LSTM在解决梯度爆炸或者梯度消失问题上有什么特点？三个门用到的激活函数是什么？（sigmoid，门是为了保证概率在0~1之间才能控制输出多少量）
17. 编程题：最长递增子序列

秋招回顾1：超参数科技算法岗面经（上）

热门公司

相关阅读

推荐文章

推荐题库

推荐问答