1.transformer 2.自注意力机制,自注意力机制的起作用的地方 3.BN,LN 4.梯度消失与爆炸的理解 5.论文讲解 6.transformer的位置编码 7.focal loss 8.模型怎么评价好坏 9.自注意力机制的参数量计算 10.编写代码:topk,用了堆排序,快排都写了
最近面试少了, 精力放在工作上。 偶尔面试保持手感即可。 今天这个学习意义比较大就记录一下。 面试本身没啥特殊的,就是项目+八股+代码。 项目问了我的蚂蚁实习, DeepFM 相关的东西和大模型相关的东西。 所以问了一些八股 1.DEEPFM 介绍一下(聊了一些) 2. 还了解别的推荐的模型吗(不了解) 3. LLAMA 和别的模型架构有啥区别? 4. Llama 用的是什么 norm 和激活函数
面试时长五十分钟 面试官给提示给的很多 体验还挺好 但听说B站没hc了
1. 自我介绍 2. 问实习经历(和算法相关度低,主要是开发) 3. 问 kaggle 竞赛做了什么 4. xgboost 和 lightgbm 的区别(接着 kaggle 竞赛问的) 5. 算法题:给一个 0.7 概率返回 1, 0.3 概率返回 0 的随机数生成器,怎么生成任意指定概率返回 1 的随机数生成器。答得很烂,面试官引导了很久才做出来。 6. (面试官说我简历项目相关的太少,很多东西
京东 投递2023-09-12 NLP算法工程师 春招刷新了一下 (春招)一面2024-03-28 大概30分钟。纯聊天。 面试官上来就说,主要就考察两个方面吧。一个是讲一下你做的最多的项目,另一个是讲一下你对大模型的理解。 讲了一下项目三。(中间有一些问题)(面试官评价:“我觉得你这个还挺好的,算是一个算法问题”) 讲了一下大模型方面的东西。(面试官:我们这边主要都是用QWen比较多。RAG贼好
Q1. 奇数行全为1,偶数行01交替即可 Q2. 一定存在某个 i,使得要求的极差 = a_{i+1} | ... | a_{n} - a_1 & a_2 & ... & a_{i} 或 a_1 | a_2 | ... | a_{i} - a_{i+1} & ... & a_{n}. 做关于 &, | 的前后缀和,然后遍历 i 即可。 Q3. 用异或的性质,多个相同数字的异或其结果和数字的数量的奇
回馈一下牛油们——— Bg 陆本英本2+2,英硕top2, 均科班,两篇论文,无相关实习 Timeline: 4.12 投递 4.17 一面 1. 自我介绍+细讲项目 2. 八股 1)介绍一下Transformer的结构 2)Transformer的缺点? 3)为什么需要/sqrt(dk) 4)讲一下Diffusion中的DDPM模型 5) Diffusion 和 GAN各有什么特点?为什么Dif
自我介绍之后,还问了实验室和导师是谁,是不是博导()。 觉得我项目和岗位没什么匹配度(在实验室主要做CV的),就只问了一段实习。(好详细啊) 下面问了好多八股题: 1.BERT详解 2. 借口任务是什么意思 3.为什么自注意力要除以根号dk 4.编码器和解码器是什么关系 4.1 Transformer中编码和解码的作用 5.推荐系统中大模型的应用 6.BERT在做分类、命名实体识别、句子相似度任务
人在天津,报的也是天津岗 面试时间半小时,技术和hr。 技术时长15分钟左右,还包括自我介绍的3分钟,挑几个记忆深刻的问题吧,以及个人回答的核心 问:有没有端侧部署经验,或者安卓部署用过没 答:无(纯服务器跑的 问:了解c++的内存泄漏问题以及解决方法吗 答:不了解(纯Python选手 问:你用的模型有多少层 答:没记住这些细节(我说的YOLO自己用的那个规格 这几个问题答下来就感觉凉凉,还问了b
第二次参加了,第一次惨不忍睹,这次过了2.5终于不是0分选手了😅 前两题签到题,我都有点不敢相信,一下就100%了。 第三题开始恶心人了,刚开始直接建立邻接表,好,通过例子,提交0%。后来想到这个边顺序可能不是父到子,得两个结点都统计邻居关系,换成了矩阵。最后就是看每个节点多少个邻居但要去掉已经访问的结点,计算剩下度的相同对数。果然过了40%提示超时,再提交50%😂。 不管了看第四题想了十几分
第一题 n为1直接得分0,n为2只能一个0一个m,得分m,n为其他值直接把m放在一堆0中间也就是得分2m 第二题 dp写了半天发现不好写,然后换记忆化搜索,但是还是超时只能过27,Python我是@cache写的,没有用dict来记忆化,这个代码平台是不是@cache没用啊😂感觉好几次笔试每次这么写都会超时
9.6笔试 第一题想破脑袋不知道哪种情况少了,A0.75 第二题整数之和为K,也是想破脑袋只过A0.5,这对不就是全排列加去重吗? 第三题应该最友好了,就是标准的求两个字符串的最长重复子串,A100
难度挺大的,做完不能不回头看 一、单选: 1、float==double:float会被转成double,即便如此,仍有可能返回false 2、AdaBoost算法确实会加大此前决策树(或其他弱分类器)分类错误的权重,使下一个模型尽可能正确,所以依赖之前的模型; 3、GBDT(Gradient Boosting Decision Tree,梯度提升决策树)是一种集成学习方法,它通过迭代地构建决策树
算法岗 1. Lora原理 2. qwen词表大小 3. deepspeed原理 4. zero原理 5. 讲一下transformer结构 6. 有哪些Encoder-Decoder结构模型 7. multi-head attention原理 8. 讲一下Stable Diffusion 9. SD中,controlNet怎么结合进来的 10. 大模型的训练流程 11. clip原理 12. 为
8.29 一面 50min 1.拷打论文 (面试官反馈,讲的很清楚) 2.拷打实习 3.LoRA原理 4.对Seq2Seq模型的理解 5.self-attention原理 6.位置编码,LLM用的是什么?为什么这么设计? 7. RAG了解吗?讲下RAG链路?RAG为什么有用? 8. RAG向量召回怎么做的? 9. 手撕——删除链表倒数第n个节点(从class开始实现, 有个地方有bug, 不过面试