理想的分类器应当是除了真实标签的概率为1,其余标签概率均为 0,这样计算得到其损失函数为 -ln(1) = 0
损失函数越大,说明该分类器在真实标签上分类概率越小,性能也就越差。一个非常差的分类器,可能在真实标签上的匪类概率接近于0,那么损失函数就接近于正无穷,我们成为训练发散,需要调小学习速率。
在 ImageNet-1000 分类问题中,初始状态为均匀分布,每个类别的分类概率均为 0.001,故此时计算损失函数值为 -ln(0.001) = ln(1000) = 6.907755
如果出现 loss 总是在 6.9 左右,训练了好久都不下降,说明训练不收敛,应该尝试调大学习速率,或者修改权值初始化方式。