AUC较高，但数据不平衡时预测较差

方野

2023-03-14

问题内容：

我正在尝试在非常不平衡的数据集上使用LightGBM建立分类器。不平衡率97:3，即：

Class

0    0.970691
1    0.029309

我使用的参数和训练代码如下所示。

lgb_params = {
        'boosting_type': 'gbdt',
        'objective': 'binary',
        'metric':'auc',
        'learning_rate': 0.1,
        'is_unbalance': 'true',  #because training data is unbalance (replaced with scale_pos_weight)
        'num_leaves': 31,  # we should let it be smaller than 2^(max_depth)
        'max_depth': 6, # -1 means no limit
        'subsample' : 0.78
    }

# Cross-validate
cv_results = lgb.cv(lgb_params, dtrain, num_boost_round=1500, nfold=10, 
                    verbose_eval=10, early_stopping_rounds=40)

nround = cv_results['auc-mean'].index(np.max(cv_results['auc-mean']))
print(nround)

model = lgb.train(lgb_params, dtrain, num_boost_round=nround)


preds = model.predict(test_feats)

preds = [1 if x >= 0.5 else 0 for x in preds]

我运行简历来获得最好的模型和最好的回合。我的简历获得了0.994 AUC，并且在验证集中获得了类似的分数。

但是，当我在测试集上进行预测时，我得到的结果非常糟糕。我相信火车是完美采样的。

需要调整哪些参数？问题的原因是什么？我是否应该对数据集重新采样以减少最高等级？

问题答案：

问题是，尽管数据集中的极端类别失衡，但在确定最终硬分类时仍使用0.5的“默认”阈值

preds = [1 if x >= 0.5 else 0 for x in preds]

这里不是这种情况。

这是一个相当大的主题，我强烈建议您进行自己的研究（尝试使用谷歌搜索阈值或 切断概率不平衡的数据 ），但是以下是一些帮助您入门的指针…

从交叉验证的相关答案中（添加了重点）：

不要忘记，您应该明智
地进行预测。当模型概率大于0.5时，并不总是最好预测1。另一个阈值可能会更好。为此，您应该查看分类器的接收器工作特征（ROC）曲线，而不仅仅是其具有默认概率阈值的预测成功。

从相关的学术论文中，找到失衡分类的最佳分类阈值：

2.2。如何设置测试集的分类阈值

最终根据预测概率确定预测结果。该阈值通常设置为0.5。如果预测概率超过0.5，则预测样本为正；否则，样本为正。否则为负面。但是，0.5在某些情况下并不理想，特别是对于不平衡的数据集。

后优化概率门限类失衡从（强烈推荐）应用预测建模博客也有关。

从以上所有内容中吸取教训：AUC很少，但是ROC 曲线本身通常是您最好的朋友…

在更一般的层面上，关于阈值本身在分类过程中的作用（至少根据我的经验，很多从业者会犯错），还请在交叉验证时检查分类概率阈值线程（和提供的链接）；关键点：

当您为新样本的每个类别输出概率时，练习的统计部分结束。选择一个阈值，将新观察值分类为1 vs. 0不再是 统计信息的 一部分。它是决策
组件的一部分。

AUC较高，但数据不平衡时预测较差

相关阅读

相关文章

相关问答

相关工具

相关文档