投的是c++岗,但捞出来的是gpu计算优化。两天速通两面泡池子,发一下面经。
一面
1,cuda的内存结构
2,寄存器的漫溢问题
3,一个线程所需要的寄存器数量是否是越少越好
4,有什么好的方法来规避溢出的问题
5,cuda编程中共享内存的半个冲突是什么情况
6,cuda流
7,有访问的优化计算方式
8,float4
9,大模型哪些是decoderonly,哪些是encoder-decoder的模型
11,bn和ln的区别
二面
1,cuda如何设计kernal
2,实现两个矩阵的相乘优化
3,lfu机制如何用
4,blockId和blockDim的常见使用场景
5,扩散模型如何抑制去噪的多样化
6,扩散推理过程中如何保证内存的优化使用
7,如何在encoder-decoder中增加跳跃链接加速训练