手写Attention;其中dk的作用是什么? Transformer结构,多头公式,区别
讲解下RNN?与Transformer区别?
归一化作用,有哪些类别,为什么 Batch Normalization,公式?
为什么使用激活函数
梯度消失原因,为什么使用Relu, 特点,在0点是多少,与sigmoid区别?
F1-sore公式,Precision&Recall公式
介绍下YoLo? IOU的实现,细节:比如10个框,框怎么定位,为什么?非极大抑制如何实现,细节原理
讲解下GPT-B,扩散模型,Stable Diffusion...
代码:1.删除链表第N个?2.详写resize是如何实现的(提示双线性插值(Bilinear Interpolation))?
问:问这么基础这么多?答:看看广度和深度
后续闲聊
#阿里面经#