相对位置编码 绝对位置编码 boosting的发展历程(项目里头有lightgbm) 为什么LN不BN qkv怎么生成的 信息增益和熵的公式 还有一些经典transformer问题 手撕快排第k大的数 反问面试有什么可以改进的嘛?答:沟通能力有点问题 哎现在就是整个人瘫在床上起不来了
(为什么wxg一共有四轮技术面啊😅,麻了 teg一面挂后,被wxg捞起来了。 3.27一面 针对简历上的简历问了很多,包括一些技术细节和实现方法。八股考察了llm和传统nlp的知识 1.chatglm2与chatglm1做了哪些改进?是怎么训练的 2.微调以后的模型会出现什么问题?如何改进 3.llm的评测怎么做的 4.bert与GPT的区别?bert的pe是怎么做的? 5.bert怎么做预训练
1.自我介绍 2.抓着项目的一些问 面试官喜欢问从顶层的实验设计的一些东西 我的实验为什么要选用 cos 距离或者 mse? 能不能用 KL散度?是不能用还是不好用? KL 散度和交叉熵的区别和联系是什么? (都是我没考虑过的问题 有点汗流浃背) 既然你用到了那么多微调方式, 那你有什么实验过程中探究了 lora 的比如 秩之类的参数的影响吗? prompt tuning ptuning v2 有
3.12 大概面了50分钟,大部分在深挖项目,实现细节问得比较深。 1.自我介绍,把简历内容快速过了一遍,面试官还夸了一句我做过的东西蛮充实 2.针对实习项目挖呀挖呀挖,这部分耗时最久,项目实现细节问得很详细 3.介绍一下Bert 4.GPT和Bert的区别 5.介绍一下Roberta,它的改进点在哪 6.Transformer和LSTM的结构与原理 7.介绍RLHF技术 8.介绍注意力机制 9.
听说写点面经能攒人品,赶紧来一波。 滴滴两次技术面,没有hr面。 第一次技术面问了transformer和bert的基础知识。 先是问了知道transformer的架构如何设计的么?我答理解的。遂让我介绍下transformer的block的结构,我巴拉巴拉,然后继续问编码器和解码器的细节,编码器的position是用的什么函数,解码器和编码器的不同之处,解码器mask是怎么设计的。有的我答出来了
这个岗位楼主是在内推投递的,但是我本身做的是算法工程、算法落地化的方向,之前的实习经历还有项目经历也是,不知道为什么算法岗的面试官会看上我叫我来面试😂 自我介绍 自己挑一个项目来介绍,介绍了在字节做的vllm优化,面试官没听懂 问llm自动评测系统怎么设计,期望答案是用另一个大模型作为裁判 设计一个llm对话机器人的整个链路,我直接将之前实习的经验答上去了,但好像面试官对知识库召回的部分不太满意
小白人生的第一次技术面,问的挺细,我nlp也关注的是大模型的一些trick,基础没系统学那么深于是凉凉 nlp部分: 1.transformer的decoder输入“你好”两字,是如何输入“hello”五个字母的,其中的loss如何计算,细化到token级别 2.transformer的自回归体现在哪个部分 3.中文分词的一些算法 linux部分: 1.如何查看文件行数 2.有一个很大的文件,想看
好未来-base北京-nlp lora的矩阵怎么初始化?为什么要初始化为全0? gpt源码past_key_value是干啥的 gpt onebyone 每一层怎么输入输出 输出的分布如果比较稀疏,有个尖尖应该怎么处理 讲讲决策树,决策树回归问题怎么做 gpt的输出topp是啥 kl散度的公式和kl散度与交叉熵的区别 强化学习的输入 chatgpt的reward model怎么来的,三阶段 car
1. 目前实习工作, 为什要用聚类来评估文本向量化表示? 2. DBSCAN算法原理(简历有) 3. 生成模型的的Category不存在预定义集合怎么办 4. UIE+Category具体流程 (实习) 5. 分类评估用的是什么指标 6. bert模型中文本到id转化的过程是怎么样? 7. 现有流行的模型相对于transformer,多头注意力有哪些改进/不同 8. 现有流行的模型相对于trans
一面(8.30): 1、自我介绍,问简历中论文和项目(问的比较浅) 2、第一道算法题:数组中找第K大(花了一些时间调出来了) 3、第二道算法题:面试官自己出的,要求输入整数n,返回长度为n、仅有元音(a,e,i,o,u)组成的字符串数量,比如n=2则返回15,因为['aa','ae','ai','ao','au','ee','ei','eo','eu','ii','io','iu','oo','o
试题来自@ustc_zh 介绍lora,p-turing,各自优缺点 Lora是采用低秩矩阵分解的方式进行模型的微调,在transformer中,主要在wk,kq,wv,wo这四个矩阵中进行SVG分解,秩R是所设置的新的超参。 优点: 1)和原模型相比完全没有推理延时。 2)可插拔式的使用,可以快速针对不同的下游任务训练不同的lora权重(尝试过stable diffuion的不同LORA之后可以
1. 自我介绍 2. 简历项目 3. 大语言模型的微调方法的了解 4. two sum 5. 排序算法(随机选一个写) 基本都回答上来了,算法题也都是easy级别的。两天后就显示流程结束。 哎! #饿了么##面经#
8.28二面 1h 1. 常规实习项目介绍 2. 给一个点的坐标,和一个长方体的中心点,长宽高,和对应的三个角度,如何判断这个点在不在长方体内。 3. 给一个点的坐标,和一个多边形的各个顶点坐标,如何判断在不在多边形内部(二维 4. 给一个点的坐标,和一个凸多面体的各个顶点坐标,如何判断在不在多面体内部(三维 5. 如何判断凸多面体的几个点在不在一个平面 被面试官疯狂拷打 8.22一面 1h 1.
这是我第二次面快手了,第一次提前批面NLP中心我觉得胸有成竹,答得比较好,题也做上来了,结果等了2周给挂了,让我经受了莫大的打击。。。。 然后后来又投了校招,今天刚面了一面,后面问面试官是做搜索部门的NLP向量化的,大概面试流程如下: 自我介绍,这次我没有展开说我中的论文,主要也是因为最近实习对美团整个业务有了比较深刻的见解,所以就多说了一些业务。 对自己实习做的东西进行一个系统的阐述,我甚至把之
无手撕,无八股,问的都是简历上面的项目,会讨论的非常详细,也会有些拓展问题。 面试官非常nice,超级详细的介绍了部门和主要的业务! #秋招##面经##吉利#