5.8 二面
简单自我介绍
先问了下adam优化器的算法公式,有点忘了
糊弄了一下
然后让我详细介绍项目
扯了10min
让我讲一些数学求导原理(项目相关)
扯下一个项目
场景优化题
attention块中可以优化哪些地方
qkv 矩阵乘优化,kvcache引入后,qkT变成gemm和gemv两种优化
softmax似乎也有优化手段,但我答错了
面试官让我回去看看flash attention怎么做的
问我还会把些优化技术
循环展开
问实现原理,考虑读写顺序时该怎么办
内存对齐
继续问原理,这里面试官说了自己的理解
常量折叠,比较简单让我说下一个
SOD(struct of data),DOS的使用
继续问怎么用,原理,面试官还是觉得我说的不到位,补充了自己的理解。(我猜到他什么意思了,但我觉得我说的没问题)
总结有点寄,五天了还没消息,许愿一个offer