1.code
有序数组某个数字出现的个数,二分,秒了
编辑距离,dp秒了,但是面试官要求不需要最优解,让写一个暴力解,且是迭代版本,最终写出了个bfs版本
2.数学
如何理解梯度
一个变量在沿着梯度方向增加很小量,y怎么变(求大佬指出)
一个函数在极小值一阶梯度和二阶梯度的特点是什么
3.八股
知道哪些机器学习常用优化器
adam和sgd的优缺点,为什么adam刚开始比sgd快,那如果我把sgd的lr调大,会比adam快吗
激活函数有哪些,relu和sigmoid优缺点
transformer的注意力为什么要多个头,多个头为什么能注意到不同信息,为什么一个头不能呢,反正最终输出都是相同维度,难道一起就学不到分开的东西吗(求大佬指出)
多头和单头计算量和参数量有什么变化(求大佬指出)
4.项目
ZILN是什么
怎么把连续值变道0-1之间,那1出会不会累计一些样本,这些样本怎么处理
没反问,面试官迟到了10min,问完项目就说今天先到这里吧,就没了
这难度有点高,被疯狂上强度,感觉不走寻常路,希望二面过吧