快手一面
上来先写题:最大第k个数,快排
介绍实习
为什么用listmle,listwise其他损失函数考虑过吗
pointwise pairwise listwise比较
listwise有什么缺点
为什么这项工作离线指标降有细致分析原因吗
推全的线上指标要求是怎样的
离线指标评测标准
指标理解 auc gauc ndcg
手写auc能实现吗
字节一面
先手撕:神经网络实现k分类
推荐系统qps
具体是怎么用lora做微调的,具体讲
你的标签增强方法如果用到短视频推荐场景,可以怎么用
离线指标主要关注哪个,在线看哪些指标
listwise介绍 listmle
多目标优化了哪几个目标
以上面完均无消息,一个月后分别被捞,继续面试继续凉
快手一面
推荐系统qps
实习项目
ndcg指标
为什么用listmle
你的模型和精排有什么区别
Transformer self attention介绍
deberta v1 v2 v3模型相比bert有什么改进
手撕快排
快手二面
实习项目
transformer self attention介绍
序列建模怎么做的
listmle损失函数解释
为什么要投影QKV三个矩阵,直接用输入为什么不行
mmoe介绍 为什么要用多个experts
最长递增子序列
字节一面
实习公司的推荐模型,用了哪些特征,那些特征比较重要,网络的维度等等
gauc分层是在哪个维度分层,为什么用这个维度对用户进行分层
这里重排优化目标是什么
实习工作介绍,基本全部工作都过了一遍
介绍transformer encoder
残差连接目的是什么
梯度消失 梯度爆炸原理,如何解决
什么激活函数能够解决梯度消失
ReLU激活函数优缺点
Transformer为什么要投影到QKV
QK转置点积结果代表什么
normalization作用 layer norm batch norm
为什么normalization能够加速收敛
Transformer时间复杂度计算
手撕:全排列
全排列时间和空间复杂度
太难了,捞完又挂掉了
百度 一面
全程只聊了第一段实习的第一个项目
什么样的样本是难负样本
deberta v1 v2 v3
BART模型介绍
A100显存
lora相比全参微调在显存上的优化
30min结束,然后就扔给我一道题
无序数最小方差和分割点
写完就结束面试,无反问
面完就知道不太行了,感觉虽然是搜索部门但是做的偏纯nlp,我的经历偏推荐,准备的东西一点没用上