当前位置：首页 > 工具软件 > GD > 使用案例 >

（九）GD、L1和L2、MAP、MLE、Lasso

养振濂

2023-12-01

一、GD

GD：

梯度稳定，所有样本的梯度

SGD：

梯度不稳定（一个样本，可能为噪声样本），学习率要小

mini-batch GD：

折中方案
既不考虑所有样本，节省时间成本
相对稳定，M需要去尝试

二、从LR看L1、L2

当给定的数据线性可分的时候，LR的参数会趋于正无穷

参数越大，模型越复杂
过拟合的模型参数会很大
正则限制参数变得太大
线性回归，w很大的时候，对输入的数据噪声会很敏感，造成很小的噪声结论和之前完全不一样，模型容易过拟合。

2.1 模型复杂度

模型本身的选择

- 简单数据用简单模型
- 复杂数据用复杂模型

模型参数的个数
```
- dropout
```

模型的参数空间选择

- L1、L2：参数比较小，限制参数的范围

模型拟合过少的样本
```
- 需要更多的样本
```

2.2 正则

在参数空间中做限制，把一些不想关心的参数滤除掉，从剩下的参数中选（简化模型）。
L1产生稀疏的权值，L2产生平滑的权值

L1能产生等于0的权值，即能够剔除某些特征在模型中的作用（特征选择），即产生稀疏的效果
L2可以迅速得到比较小的权值，但很难收敛到0，所以产生的是平滑的效果。

L1：

是很多参数变为0，解是稀疏的解
稀疏，选择性的作用，将不好的参数直接去掉
L1的权值更新，每次更新一个固定的值，会更新到0
L2的权值每次减少为上一次的一定比例，会很快收敛到很小的值，但是不会收敛到0

三、K折交叉验证

超参数用交叉验证（求K个准确率的平均）来选择一个合适的值。
Grid search：可以完全并行、很耗资源

for lamda1 in iter_1:
	for lamda2 in iter_2:
		(lamda1,lamda2) 使用交叉验证求平均准确率

四、MAP与MLE

MAP：argmax P(w|D) = argmax P(D|w) * P(w)
MLE：argmax P(D|w)
P(w)服从高斯分布时，MAP会变成MLE+L2正则
P(w)服从Laplace分布时，MAP会变成MLE+L1正则
当数据非常多的时候，MAP趋近与MLE（当样本很多时，先验的作用会越来越小，大数定理）

五、Lasso Regression

当样本数N < 样本的维度D时，模型容易过拟合，用lasso进行特征选择，也能提高可解释性。
线性回归 + L1
L1的梯度，0处不可导，sub gradient decent，在[0,1]之间随机取一个，可以为0
对于lasso，可以采用coordinate descend进行优化

类似资料：

相关阅读

C ++ STL中的map :: at()和map :: swap()基于javascript实现九九乘法表 L1不可导的时候该怎么办?php中使用GD库做验证码 C ++ STL中的map :: begin()和end()

相关文章

九九互娱策划面经天美游戏客户端-再战L1 九洲一面 map元素的删除和清空九号公司（30min）

相关问答

Java8流：groupingBy和create Map L2 TLB失误后会发生什么？“filter（）”和“map（）”可以互换链路电源管理中的 L2 状态 Hadoop集群。Map reduce作业卡在Map 100%和reduce 0%

相关文档

逻辑十九讲 fbreader 和移动 DM 和加解密 Android 开机和编译系统和 binder 理解 WebKit 和 Chromium React 和 Webpack 小书