当前位置: 首页 > 工具软件 > Gini > 使用案例 >

Gini指数、Gini系数、Gini不纯是一回事吗?

幸阳波
2023-12-01

决策树算法CART中用的是哪一个?

用的是Gini impurity,也就是基尼不纯。

 

Gini impuirty是什么?

假设这个数据集里有kk种不同标签,第ii个标签所占的比重为pipi,那么Gini impurity为

 

1−∑i=1kp2i,1−∑i=1kpi2,

它描述了一个数据集中标签分布的纯度,类似于entropy。

 

Gini coefficient是什么?

Gini coefficnet针对于二元分类问题。对于二元分类问题,我们的预测结果会有对应的ROC AUC,那么

 

GiniCoefficient=2AUC−1GiniCoefficient=2AUC−1

 

 

经济学中的基尼系数是什么?和上面的GiniCoefficient是一回事吗?

是的,本质是一回事。经济学中GiniCoefficient用累计分布来衡量一个地区财富的分配的合理程度。当G=0G=0,说明财富均匀分配。

分类问题中,GiniCoefficient用累积分布衡量正负两种标签的分配合理程度。当G=0G=0,说明正负标签的预测概率均匀分配,模型相当于是随机排序,所以AUC=0.5AUC=0.5。

 

Gini index是什么?

这是一个尴尬的问题,因为很多时候有人把gini index等价于gini impurity,但有人有时候把它用作gini coefficient。你自己看懂别人的上下文就好了,自己可以避免使用,防止让别人误会。

http://sofasofa.io/forum_main_post.php?postid=1001461

 类似资料: