一面 75分钟
深度拷打论文30分钟
transformer架构,自注意力
bn训练阶段和测试阶段区别,详细讲讲原理
dropout原理,训练阶段和测试阶段区别,为什么
手撕交叉熵,二叉树最近祖先,概率题
二面 60分钟
深度拷打论文30分钟
介绍一下graphsage
deepwalk和node2vec原理
协同过滤讲讲原理
手撕topk元素
三面 60分钟
拷打论文
transformer自注意力原理,qkv能不能相同,位置编码,为什么除以维度开方
手撕多头注意力,编辑距离,概率题
字节强度是真的大,代码题难度和数量也是重量级,终于过了,不容易