3. 模型选择和评估

优质
小牛编辑
135浏览
2023-12-01
  • 3.1. 交叉验证:评估估算器的表现
    • 3.1.1. 计算交叉验证的指标
      • 3.1.1.1. cross_validate 函数和多度量评估
      • 3.1.1.2. 通过交叉验证获取预测
    • 3.1.2. 交叉验证迭代器
    • 3.1.3. 交叉验证迭代器–循环遍历数据
      • 3.1.3.1. K 折
      • 3.1.3.2. 重复 K-折交叉验证
      • 3.1.3.3. 留一交叉验证 (LOO)
      • 3.1.3.4. 留 P 交叉验证 (LPO)
      • 3.1.3.5. 随机排列交叉验证 a.k.a. Shuffle & Split
    • 3.1.4. 基于类标签、具有分层的交叉验证迭代器
      • 3.1.4.1. 分层 k 折
      • 3.1.4.2. 分层随机 Split
    • 3.1.5. 用于分组数据的交叉验证迭代器
      • 3.1.5.1. 组 k-fold
      • 3.1.5.2. 留一组交叉验证
      • 3.1.5.3. 留 P 组交叉验证
      • 3.1.5.4. Group Shuffle Split
    • 3.1.6. 预定义的折叠 / 验证集
    • 3.1.7. 交叉验证在时间序列数据中应用
      • 3.1.7.1. 时间序列分割
    • 3.1.8. A note on shuffling
    • 3.1.9. 交叉验证和模型选择
  • 3.2. 调整估计器的超参数
    • 3.2.1. 网格追踪法–穷尽的网格搜索
    • 3.2.2. 随机参数优化
    • 3.2.3. 参数搜索技巧
      • 3.2.3.1. 指定目标度量
      • 3.2.3.2. 为评估指定多个指标
      • 3.2.3.3. 复合估计和参数空间
      • 3.2.3.4. 模型选择:开发和评估
      • 3.2.3.5. 并行机制
      • 3.2.3.6. 对故障的鲁棒性
    • 3.2.4. 暴力参数搜索的替代方案
      • 3.2.4.1. 模型特定交叉验证
        • 3.2.4.1.1. sklearn.linear_model.ElasticNetCV
        • 3.2.4.1.2. sklearn.linear_model.LarsCV
        • 3.2.4.1.3. sklearn.linear_model.LassoCV
          • 3.2.4.1.3.1. Examples using sklearn.linear_model.LassoCV
        • 3.2.4.1.4. sklearn.linear_model.LassoLarsCV
          • 3.2.4.1.4.1. Examples using sklearn.linear_model.LassoLarsCV
        • 3.2.4.1.5. sklearn.linear_model.LogisticRegressionCV
        • 3.2.4.1.6. sklearn.linear_model.MultiTaskElasticNetCV
        • 3.2.4.1.7. sklearn.linear_model.MultiTaskLassoCV
        • 3.2.4.1.8. sklearn.linear_model.OrthogonalMatchingPursuitCV
          • 3.2.4.1.8.1. Examples using sklearn.linear_model.OrthogonalMatchingPursuitCV
        • 3.2.4.1.9. sklearn.linear_model.RidgeCV
          • 3.2.4.1.9.1. Examples using sklearn.linear_model.RidgeCV
        • 3.2.4.1.10. sklearn.linear_model.RidgeClassifierCV
      • 3.2.4.2. 信息标准
        • 3.2.4.2.1. sklearn.linear_model.LassoLarsIC
          • 3.2.4.2.1.1. Examples using sklearn.linear_model.LassoLarsIC
      • 3.2.4.3. 出袋估计
        • 3.2.4.3.1. sklearn.ensemble.RandomForestClassifier
          • 3.2.4.3.1.1. Examples using sklearn.ensemble.RandomForestClassifier
        • 3.2.4.3.2. sklearn.ensemble.RandomForestRegressor
          • 3.2.4.3.2.1. Examples using sklearn.ensemble.RandomForestRegressor
        • 3.2.4.3.3. sklearn.ensemble.ExtraTreesClassifier
          • 3.2.4.3.3.1. Examples using sklearn.ensemble.ExtraTreesClassifier
        • 3.2.4.3.4. sklearn.ensemble.ExtraTreesRegressor
          • 3.2.4.3.4.1. Examples using sklearn.ensemble.ExtraTreesRegressor
        • 3.2.4.3.5. sklearn.ensemble.GradientBoostingClassifier
          • 3.2.4.3.5.1. Examples using sklearn.ensemble.GradientBoostingClassifier
        • 3.2.4.3.6. sklearn.ensemble.GradientBoostingRegressor
          • 3.2.4.3.6.1. Examples using sklearn.ensemble.GradientBoostingRegressor
  • 3.3. 模型评估: 量化预测的质量
    • 3.3.1. scoring 参数: 定义模型评估规则
      • 3.3.1.1. 常见场景: 预定义值
      • 3.3.1.2. 根据 metric 函数定义您的评分策略
      • 3.3.1.3. 实现自己的记分对象
      • 3.3.1.4. 使用多个指数评估
    • 3.3.2. 分类指标
      • 3.3.2.1. 从二分到多分类和 multilabel
      • 3.3.2.2. 精确度得分
      • 3.3.2.3. Cohen’s kappa
      • 3.3.2.4. 混淆矩阵
      • 3.3.2.5. 分类报告
      • 3.3.2.6. 汉明损失
      • 3.3.2.7. Jaccard 相似系数 score
      • 3.3.2.8. 精准,召回和 F-measures
        • 3.3.2.8.1. 二分类
        • 3.3.2.8.2. 多类和多标签分类
      • 3.3.2.9. Hinge loss
      • 3.3.2.10. Log 损失
      • 3.3.2.11. 马修斯相关系数
      • 3.3.2.12. Receiver operating characteristic (ROC)
      • 3.3.2.13. 零一损失
      • 3.3.2.14. Brier 分数损失
    • 3.3.3. 多标签排名指标
      • 3.3.3.1. 覆盖误差
      • 3.3.3.2. 标签排名平均精度
      • 3.3.3.3. 排序损失
    • 3.3.4. 回归指标
      • 3.3.4.1. 解释方差得分
      • 3.3.4.2. 平均绝对误差
      • 3.3.4.3. 均方误差
      • 3.3.4.4. 均方误差对数
      • 3.3.4.5. 中位绝对误差
      • 3.3.4.6. R² score, 可决系数
    • 3.3.5. 聚类指标
    • 3.3.6. 虚拟估计
  • 3.4. 模型持久化
    • 3.4.1. 持久化示例
    • 3.4.2. 安全性和可维护性的局限性
  • 3.5. 验证曲线: 绘制分数以评估模型
    • 3.5.1. 验证曲线
    • 3.5.2. 学习曲线