3. 模型选择和评估
优质
小牛编辑
135浏览
2023-12-01
- 3.1. 交叉验证:评估估算器的表现
- 3.1.1. 计算交叉验证的指标
- 3.1.1.1. cross_validate 函数和多度量评估
- 3.1.1.2. 通过交叉验证获取预测
- 3.1.2. 交叉验证迭代器
- 3.1.3. 交叉验证迭代器–循环遍历数据
- 3.1.3.1. K 折
- 3.1.3.2. 重复 K-折交叉验证
- 3.1.3.3. 留一交叉验证 (LOO)
- 3.1.3.4. 留 P 交叉验证 (LPO)
- 3.1.3.5. 随机排列交叉验证 a.k.a. Shuffle & Split
- 3.1.4. 基于类标签、具有分层的交叉验证迭代器
- 3.1.4.1. 分层 k 折
- 3.1.4.2. 分层随机 Split
- 3.1.5. 用于分组数据的交叉验证迭代器
- 3.1.5.1. 组 k-fold
- 3.1.5.2. 留一组交叉验证
- 3.1.5.3. 留 P 组交叉验证
- 3.1.5.4. Group Shuffle Split
- 3.1.6. 预定义的折叠 / 验证集
- 3.1.7. 交叉验证在时间序列数据中应用
- 3.1.7.1. 时间序列分割
- 3.1.8. A note on shuffling
- 3.1.9. 交叉验证和模型选择
- 3.1.1. 计算交叉验证的指标
- 3.2. 调整估计器的超参数
- 3.2.1. 网格追踪法–穷尽的网格搜索
- 3.2.2. 随机参数优化
- 3.2.3. 参数搜索技巧
- 3.2.3.1. 指定目标度量
- 3.2.3.2. 为评估指定多个指标
- 3.2.3.3. 复合估计和参数空间
- 3.2.3.4. 模型选择:开发和评估
- 3.2.3.5. 并行机制
- 3.2.3.6. 对故障的鲁棒性
- 3.2.4. 暴力参数搜索的替代方案
- 3.2.4.1. 模型特定交叉验证
- 3.2.4.1.1.
sklearn.linear_model
.ElasticNetCV - 3.2.4.1.2.
sklearn.linear_model
.LarsCV - 3.2.4.1.3.
sklearn.linear_model
.LassoCV- 3.2.4.1.3.1. Examples using
sklearn.linear_model.LassoCV
- 3.2.4.1.3.1. Examples using
- 3.2.4.1.4.
sklearn.linear_model
.LassoLarsCV- 3.2.4.1.4.1. Examples using
sklearn.linear_model.LassoLarsCV
- 3.2.4.1.4.1. Examples using
- 3.2.4.1.5.
sklearn.linear_model
.LogisticRegressionCV - 3.2.4.1.6.
sklearn.linear_model
.MultiTaskElasticNetCV - 3.2.4.1.7.
sklearn.linear_model
.MultiTaskLassoCV - 3.2.4.1.8.
sklearn.linear_model
.OrthogonalMatchingPursuitCV- 3.2.4.1.8.1. Examples using
sklearn.linear_model.OrthogonalMatchingPursuitCV
- 3.2.4.1.8.1. Examples using
- 3.2.4.1.9.
sklearn.linear_model
.RidgeCV- 3.2.4.1.9.1. Examples using
sklearn.linear_model.RidgeCV
- 3.2.4.1.9.1. Examples using
- 3.2.4.1.10.
sklearn.linear_model
.RidgeClassifierCV
- 3.2.4.1.1.
- 3.2.4.2. 信息标准
- 3.2.4.2.1.
sklearn.linear_model
.LassoLarsIC- 3.2.4.2.1.1. Examples using
sklearn.linear_model.LassoLarsIC
- 3.2.4.2.1.1. Examples using
- 3.2.4.2.1.
- 3.2.4.3. 出袋估计
- 3.2.4.3.1.
sklearn.ensemble
.RandomForestClassifier- 3.2.4.3.1.1. Examples using
sklearn.ensemble.RandomForestClassifier
- 3.2.4.3.1.1. Examples using
- 3.2.4.3.2.
sklearn.ensemble
.RandomForestRegressor- 3.2.4.3.2.1. Examples using
sklearn.ensemble.RandomForestRegressor
- 3.2.4.3.2.1. Examples using
- 3.2.4.3.3.
sklearn.ensemble
.ExtraTreesClassifier- 3.2.4.3.3.1. Examples using
sklearn.ensemble.ExtraTreesClassifier
- 3.2.4.3.3.1. Examples using
- 3.2.4.3.4.
sklearn.ensemble
.ExtraTreesRegressor- 3.2.4.3.4.1. Examples using
sklearn.ensemble.ExtraTreesRegressor
- 3.2.4.3.4.1. Examples using
- 3.2.4.3.5.
sklearn.ensemble
.GradientBoostingClassifier- 3.2.4.3.5.1. Examples using
sklearn.ensemble.GradientBoostingClassifier
- 3.2.4.3.5.1. Examples using
- 3.2.4.3.6.
sklearn.ensemble
.GradientBoostingRegressor- 3.2.4.3.6.1. Examples using
sklearn.ensemble.GradientBoostingRegressor
- 3.2.4.3.6.1. Examples using
- 3.2.4.3.1.
- 3.2.4.1. 模型特定交叉验证
- 3.3. 模型评估: 量化预测的质量
- 3.3.1.
scoring
参数: 定义模型评估规则- 3.3.1.1. 常见场景: 预定义值
- 3.3.1.2. 根据 metric 函数定义您的评分策略
- 3.3.1.3. 实现自己的记分对象
- 3.3.1.4. 使用多个指数评估
- 3.3.2. 分类指标
- 3.3.2.1. 从二分到多分类和 multilabel
- 3.3.2.2. 精确度得分
- 3.3.2.3. Cohen’s kappa
- 3.3.2.4. 混淆矩阵
- 3.3.2.5. 分类报告
- 3.3.2.6. 汉明损失
- 3.3.2.7. Jaccard 相似系数 score
- 3.3.2.8. 精准,召回和 F-measures
- 3.3.2.8.1. 二分类
- 3.3.2.8.2. 多类和多标签分类
- 3.3.2.9. Hinge loss
- 3.3.2.10. Log 损失
- 3.3.2.11. 马修斯相关系数
- 3.3.2.12. Receiver operating characteristic (ROC)
- 3.3.2.13. 零一损失
- 3.3.2.14. Brier 分数损失
- 3.3.3. 多标签排名指标
- 3.3.3.1. 覆盖误差
- 3.3.3.2. 标签排名平均精度
- 3.3.3.3. 排序损失
- 3.3.4. 回归指标
- 3.3.4.1. 解释方差得分
- 3.3.4.2. 平均绝对误差
- 3.3.4.3. 均方误差
- 3.3.4.4. 均方误差对数
- 3.3.4.5. 中位绝对误差
- 3.3.4.6. R² score, 可决系数
- 3.3.5. 聚类指标
- 3.3.6. 虚拟估计
- 3.3.1.
- 3.4. 模型持久化
- 3.4.1. 持久化示例
- 3.4.2. 安全性和可维护性的局限性
- 3.5. 验证曲线: 绘制分数以评估模型
- 3.5.1. 验证曲线
- 3.5.2. 学习曲线