WOE,IV ,PSI，单变量PSI，KS值，capture rate

谭凯

2023-12-01

1.WOE
Weight of Evidence,证据权重。
要对一个变量进行WOE编码，需要首先把这个变量进行分组处理（离散化，分箱等）。分组后，对于第i组，这个组中响应客户站样本中所有响应客户的比例为 $p_{yi}$
$p_{yi}=\frac{y_i}{y_T}$

这个组中未响应客户占所有未响应客户的比例为 $p_{ni}$
$p_{ni} = \frac{ni}{n_T}$

$woe_i = ln( \frac{P_{yi}}{P_{ni}})$

2.IV
information value,其实就是在WOE前面加上一项。
$iv_i = (P_{yi}-P_{ni})$
最后，只需要将每个区间的 $i v$ 加起来就得到总的 $i v$ 值：
$\sum iv_i$

其作用是消除分组所占比例的影响

3.模型PSI
群体稳定性指标（popularity stability index）：
$\sum(基准月分布占比-目标月分布占比) * ln(\frac{基准月分布占比}{目标月分布占比})$
3.1 将模型输出的分数，按照某区间进行分箱
3.2分别计算每个箱的人数占总比，得到基础月份每一箱的占比和目标月份每一箱的占比
3.3分别计算每一箱的PSI
3.4将每一箱的PSI相加得到整个模型分数的PSI

4.单变量PSI
公式同模型PSI的计算，只有分箱的逻辑不同。
4.1将样本按照当前维度的特征所有取值进行分箱
4.2分别计算每个箱的人数占总比，得到基础月份每一箱的占比和目标月份每一箱的占比
4.3分别计算每一箱的PSI
4.4将每一箱的PSI相加。

5.模型KS值
TPR（True Positive Rate）：TP／（TP+FN）
FPR（False positive Rate）：FP／（FP+TN）
precision = TP /(TP + FP )
最理想的模型是TPR尽可能高而FPR尽可能低，然而理想的模型在提高正确预测率的同时，也会难免低增加误判率。

KS曲线是将概率从小到大进行排序，取10%的值为阈值，同时将10%*k(k=1,2…)处值作为阈值，计算不同的FPR和TPR，以10%*k(k=1,2…)为横坐标，同时分别以TPR和FPR为纵坐标画出两条曲线就是KS曲线。
KS值 = |Max（TPR-FPR）|

5.capture rate
用于衡量在低分区间捕捉坏客户的能力，希望模型尽可能的在更靠前的箱内捕捉出更多的坏客户。
5.1将用户分数降序排列
5.2对排序后的用户进行等频分箱
5.3计算累计到每一箱的累计负样本数占所有副样本的比例

WOE,IV ,PSI，单变量PSI，KS值，capture rate

相关阅读

相关文章

相关问答

相关文档