清华系的AI infra创业公司,规模比较小,全是清华大佬,被狠狠吊打。
transformer的模型结构
有哪些位置编码?其特点是什么?
GQA
Flash Attention?
Page Attention
Decoder-Only和Encoder-Decoder-Only模型相比有什么区别?
CUDA规约计算
培养及管理体系
二面应该是技术负责人了,项目拷打,问的特别细特别深,当时面试完人麻了,也没有录音记录,所以细节已经忘掉了。
因为他们公司跟我实习的公司有业务合作,所以这位技术大佬比我还了解实习公司的业务,面试过程快扣出四室一厅了,毫无疑问的挂了。
#AIinfra##大模型##面经##清程极智#