当前位置: 首页 > 面试经验 >

文远知行一面

优质
小牛编辑
67浏览
2024-08-12

文远知行一面

很无语,面的很红温, 但是也还是有很多自己认为需要补进的地方。
BOSS HR 跟我说是 NLP,实际上他说是什么预测什么的,文本也是一种。
1.自我介绍(后面打断,让我选一个有趣的项目讲)
2.项目介绍(我就讲了第一个内容,觉得我说太多了, 问:你们没有什么模型训练或者优化 loss 的地方吗)
3. 我讲我们有很多 SFT 的工作(loss 有优化吗? 大哥,我们就做个文本对齐, 优化什么 Loss 啊都是一套流程下来的)
然后就不再问我的项目
4.介绍一下 KL 散度,交叉熵(这是我的问题,现在基本都没看这种不那么相关的八股了,问的太少了,公式根本记不住)
5.他:你们训练模型怎么公式会不知道。。(我内心:怎么会记住,我又不做这种科研)
6.最大似然估计,无偏估计讲一下(愣住, 考研我肯定会,但是现在我怎么讲得清楚,就凭借记忆瞎说)
-----接下来开始问 transformer ,我以为能进一下舒适区--------
1.讲一下 encoder 结构(刚讲到 embedding,他问,这和embedding 有什么关系。。。我佛了,就好像没理解我的意思)
然后他让我用文档随便写一下,不然他跟不上我。
2. WQ WK WV 什么维度,维度要一样吗(我也是结结巴巴,推理了一下)
3.计算完 attention 之后呢?(我:concat 再 leaner,他:不是,这之前还有啥,我:啊?他可能是理解的是后面 multi head 之后的 leaner,我说那还有 add and Norm)
4.那你讲讲 batchNorm 和 LayerNorm,(随便讲了讲)
5. 那 pytorch 里怎么实现的?(我说就一般都是减去平均值除以方差,有一些 RMSNorm 可以不减均值
6.一般还会有一些其他操作吧?(他说的是 另外两个系数,我就不太知道咋说,我说会有个罚项(本科最优化的名词突然蹦进来了)他就说你这个罚项指的是啥)
7. 然后讲 Decoder(有几层 attention,cross attention 在哪里,明明我已经讲过这个了,他还要单独再问一下,真服了)
时间不多了,代码题
代码题就是给一个二维的二元 0 1 矩阵,返回一个矩阵,每个位置对应最近的 0 的距离
题本身不难,他要我先说思路,我说先把 0 值本身遍历,再 BFS(他:时间复杂度多少)我:应该 On 方(太高了不可以接受)我:对于已经 BFS 搜索的节点都可以找到答案,不需要再遍历,应该就是 On(应该是 On 吗?到底是多少。。。。)我:我觉得就是 On,然后尝试写题(他:你先别写,不说清楚写也是错的)。。。(我给你一个思路实现吧,先找到 0,再找到 1)我:就是 0 1 2 这种距离找吗(是的)
一道本身不难的题写的我乱七八糟(他:时间到了,你这写的也不对啊,为什么不用 BFS)
我:???我一开始就是说 BFS 啊,你说不对
(他:那为什么你的 BFS 是 On 方复杂度?)
我:那我不是说剪枝后是 On 吗?
(他:怎么实现是 candidate 的事情,我们只是给建议)
我直接被气笑了(内心:你没事吧?没事你就不要建议, 我要正常早就写完了)
然后问业务:prediction
。。。。以后都不想投这种完全不匹配的了
不过至少在八股这一块,其实都是自己应该会的,只是说现在面前都是项目为主,这种八股基本不注意,一般一场面试碰到一两个也无所谓,这种集中爆发也是因为项目不匹配,自己还需要进一步巩固八股。
但是面试官是真**这辈子目前遇到的最*的
 类似资料: