乱序
1、有了解fm吗。不太熟悉,核心思想是将wij分解为vil和vlj。
2、transformer的注意力机制。x复制3份,交由三个权重矩阵得到qkv,softmax(qk^T)/(根号dk)*v。之后就是一些具体在干嘛的,我说的用这个做的机器翻译,当时是纯手打完transformer成所以比较熟悉,记忆比较深刻,但是面试官好像没继续深入问下去。
3、说一下mmoe。这是一个多任务的双塔模型,用于衡量点击率购买率之类的模型。主要有门控、专家、塔构成。门控是用于控制专家网络的输出,n个专家网络是n组神经网络构成,经过门控后丢到塔里面得到最后的结果。
4、说一下图神经网络。把user、item当成一个节点如果存在购买行为,则存在边,用邻接矩阵存储交互信息,之后进行邻居消息的传播聚合,可以简单理解为两个大矩阵的矩阵乘法。
4.2、复杂度如何计算。这个得结合具体的例子,主要相关的是节点数量、卷积层数、消息传播公式、向量维度。
5、大图如何减少计算量。一个方向是分裂成子图,具体做法不知道。(感觉学校里面很难碰到这么大的数据,多卡计算也感觉很少用到)
6、w2c在推荐上的应用。item2vec,有词袋模型和skip-gram模型,词袋是指通过上下文预测当前,skip是指通过当前预测上下文。在向量化技术中融入上下文感知,大致思路是从onehot到hidden到最后的softmax后的最大概率为推荐的word。(one-hot embeding、w2c embeding、graph embeding)
7、k8s,说了下当时用虚拟机搭建k8s部署kubeflow的过程。(貌似对kubeflow和tvm这些不感兴趣)
其他的印象不是很深刻,20分钟左右。
结果:挂掉。hr不会主动通知寄了。
感受,和网上其他推荐算法面经问的东西不太一样。基本上是照着简历问的。