一、GD
GD:
SGD:
- 梯度不稳定(一个样本,可能为噪声样本),学习率要小
mini-batch GD:
- 折中方案
- 既不考虑所有样本,节省时间成本
- 相对稳定,M需要去尝试
二、从LR看L1、L2
当给定的数据线性可分的时候,LR的参数会趋于正无穷
- 参数越大,模型越复杂
- 过拟合的模型参数会很大
- 正则限制参数变得太大
- 线性回归,w很大的时候,对输入的数据噪声会很敏感,造成很小的噪声结论和之前完全不一样,模型容易过拟合。
2.1 模型复杂度
-
模型本身的选择
- 简单数据用简单模型
- 复杂数据用复杂模型
-
模型参数的个数
- dropout
-
模型的参数空间选择
- L1、L2:参数比较小,限制参数的范围
-
模型拟合过少的样本
- 需要更多的样本
2.2 正则
在参数空间中做限制,把一些不想关心的参数滤除掉,从剩下的参数中选(简化模型)。
L1产生稀疏的权值,L2产生平滑的权值
- L1能产生等于0的权值,即能够剔除某些特征在模型中的作用(特征选择),即产生稀疏的效果
- L2可以迅速得到比较小的权值,但很难收敛到0,所以产生的是平滑的效果。
L1:
- 是很多参数变为0,解是稀疏的解
- 稀疏,选择性的作用,将不好的参数直接去掉
- L1的权值更新,每次更新一个固定的值,会更新到0
- L2的权值每次减少为上一次的一定比例,会很快收敛到很小的值,但是不会收敛到0
三、K折交叉验证
- 超参数用交叉验证(求K个准确率的平均)来选择一个合适的值。
- Grid search:可以完全并行、很耗资源
for lamda1 in iter_1:
for lamda2 in iter_2:
(lamda1,lamda2) 使用交叉验证求平均准确率
四、MAP与MLE
- MAP:argmax P(w|D) = argmax P(D|w) * P(w)
- MLE:argmax P(D|w)
- P(w)服从高斯分布时,MAP会变成MLE+L2正则
- P(w)服从Laplace分布时,MAP会变成MLE+L1正则
- 当数据非常多的时候,MAP趋近与MLE(当样本很多时,先验的作用会越来越小,大数定理)
五、Lasso Regression
- 当样本数N < 样本的维度D时,模型容易过拟合,用lasso进行特征选择,也能提高可解释性。
- 线性回归 + L1
- L1的梯度,0处不可导,sub gradient decent,在[0,1]之间随机取一个,可以为0
- 对于lasso,可以采用coordinate descend进行优化