文远知行一面

优质

小牛编辑

135浏览

2024-08-12

文远知行一面

很无语，面的很红温，但是也还是有很多自己认为需要补进的地方。
BOSS HR 跟我说是 NLP，实际上他说是什么预测什么的，文本也是一种。
1.自我介绍（后面打断，让我选一个有趣的项目讲）
2.项目介绍（我就讲了第一个内容，觉得我说太多了，问：你们没有什么模型训练或者优化 loss 的地方吗）
3. 我讲我们有很多 SFT 的工作（loss 有优化吗？大哥，我们就做个文本对齐，优化什么 Loss 啊都是一套流程下来的）
然后就不再问我的项目
4.介绍一下 KL 散度，交叉熵（这是我的问题，现在基本都没看这种不那么相关的八股了，问的太少了，公式根本记不住）
5.他：你们训练模型怎么公式会不知道。。（我内心：怎么会记住，我又不做这种科研）
6.最大似然估计，无偏估计讲一下（愣住，考研我肯定会，但是现在我怎么讲得清楚，就凭借记忆瞎说）
-----接下来开始问 transformer ，我以为能进一下舒适区--------
1.讲一下 encoder 结构（刚讲到 embedding，他问，这和embedding 有什么关系。。。我佛了，就好像没理解我的意思）
然后他让我用文档随便写一下，不然他跟不上我。
2. WQ WK WV 什么维度，维度要一样吗（我也是结结巴巴，推理了一下）
3.计算完 attention 之后呢？（我：concat 再 leaner，他：不是，这之前还有啥，我：啊？他可能是理解的是后面 multi head 之后的 leaner，我说那还有 add and Norm）
4.那你讲讲 batchNorm 和 LayerNorm，（随便讲了讲）
5. 那 pytorch 里怎么实现的？（我说就一般都是减去平均值除以方差，有一些 RMSNorm 可以不减均值
6.一般还会有一些其他操作吧？（他说的是另外两个系数，我就不太知道咋说，我说会有个罚项（本科最优化的名词突然蹦进来了）他就说你这个罚项指的是啥）
7. 然后讲 Decoder（有几层 attention，cross attention 在哪里，明明我已经讲过这个了，他还要单独再问一下，真服了）
时间不多了，代码题
代码题就是给一个二维的二元 0 1 矩阵，返回一个矩阵，每个位置对应最近的 0 的距离
题本身不难，他要我先说思路，我说先把 0 值本身遍历，再 BFS（他：时间复杂度多少）我：应该 On 方（太高了不可以接受）我：对于已经 BFS 搜索的节点都可以找到答案，不需要再遍历，应该就是 On(应该是 On 吗？到底是多少。。。。)我：我觉得就是 On，然后尝试写题（他：你先别写，不说清楚写也是错的）。。。（我给你一个思路实现吧，先找到 0，再找到 1）我：就是 0 1 2 这种距离找吗（是的）
一道本身不难的题写的我乱七八糟（他：时间到了，你这写的也不对啊，为什么不用 BFS）
我：？？？我一开始就是说 BFS 啊，你说不对
（他：那为什么你的 BFS 是 On 方复杂度？）
我：那我不是说剪枝后是 On 吗？
（他：怎么实现是 candidate 的事情，我们只是给建议）
我直接被气笑了（内心：你没事吧？没事你就不要建议，我要正常早就写完了）
然后问业务：prediction
。。。。以后都不想投这种完全不匹配的了
不过至少在八股这一块，其实都是自己应该会的，只是说现在面前都是项目为主，这种八股基本不注意，一般一场面试碰到一两个也无所谓，这种集中爆发也是因为项目不匹配，自己还需要进一步巩固八股。
但是面试官是真**这辈子目前遇到的最*的

文远知行一面

热门公司

相关阅读

推荐文章

推荐题库

推荐问答