决策树算法CART中用的是哪一个?
用的是Gini impurity,也就是基尼不纯。
Gini impuirty是什么?
假设这个数据集里有kk种不同标签,第ii个标签所占的比重为pipi,那么Gini impurity为
1−∑i=1kp2i,1−∑i=1kpi2,
它描述了一个数据集中标签分布的纯度,类似于entropy。
Gini coefficient是什么?
Gini coefficnet针对于二元分类问题。对于二元分类问题,我们的预测结果会有对应的ROC AUC,那么
GiniCoefficient=2AUC−1GiniCoefficient=2AUC−1
经济学中的基尼系数是什么?和上面的GiniCoefficient是一回事吗?
是的,本质是一回事。经济学中GiniCoefficient用累计分布来衡量一个地区财富的分配的合理程度。当G=0G=0,说明财富均匀分配。
分类问题中,GiniCoefficient用累积分布衡量正负两种标签的分配合理程度。当G=0G=0,说明正负标签的预测概率均匀分配,模型相当于是随机排序,所以AUC=0.5AUC=0.5。
Gini index是什么?
这是一个尴尬的问题,因为很多时候有人把gini index等价于gini impurity,但有人有时候把它用作gini coefficient。你自己看懂别人的上下文就好了,自己可以避免使用,防止让别人误会。