1.WOE
Weight of Evidence,证据权重。
要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(离散化,分箱等)。分组后,对于第i组,这个组中响应客户站样本中所有响应客户的比例为
p
y
i
p_{yi}
pyi
p
y
i
=
y
i
y
T
p_{yi}=\frac{y_i}{y_T}
pyi=yTyi
这个组中未响应客户占所有未响应客户的比例为
p
n
i
p_{ni}
pni
p
n
i
=
n
i
n
T
p_{ni} = \frac{ni}{n_T}
pni=nTni
w o e i = l n ( P y i P n i ) woe_i = ln( \frac{P_{yi}}{P_{ni}}) woei=ln(PniPyi)
2.IV
information value,其实就是在WOE前面加上一项。
i
v
i
=
(
P
y
i
−
P
n
i
)
iv_i = (P_{yi}-P_{ni})
ivi=(Pyi−Pni)
最后,只需要将每个区间的
i
v
iv
iv加起来就得到总的
i
v
iv
iv值:
I
V
=
∑
i
v
i
IV = \sum iv_i
IV=∑ivi
其作用是消除分组所占比例的影响
3.模型PSI
群体稳定性指标(popularity stability index):
P
S
I
=
∑
(
基
准
月
分
布
占
比
−
目
标
月
分
布
占
比
)
∗
l
n
(
基
准
月
分
布
占
比
目
标
月
分
布
占
比
)
PSI = \sum(基准月分布占比-目标月分布占比) * ln(\frac{基准月分布占比}{目标月分布占比})
PSI=∑(基准月分布占比−目标月分布占比)∗ln(目标月分布占比基准月分布占比)
3.1 将模型输出的分数,按照某区间进行分箱
3.2分别计算每个箱的人数占总比,得到基础月份每一箱的占比和目标月份每一箱的占比
3.3分别计算每一箱的PSI
3.4将每一箱的PSI相加得到整个模型分数的PSI
4.单变量PSI
公式同模型PSI的计算,只有分箱的逻辑不同。
4.1将样本按照当前维度的特征所有取值进行分箱
4.2分别计算每个箱的人数占总比,得到基础月份每一箱的占比和目标月份每一箱的占比
4.3分别计算每一箱的PSI
4.4将每一箱的PSI相加。
5.模型KS值
TPR(True Positive Rate):TP/(TP+FN)
FPR(False positive Rate):FP/(FP+TN)
precision = TP /(TP + FP )
最理想的模型是TPR尽可能高而FPR尽可能低,然而理想的模型在提高正确预测率的同时,也会难免低增加误判率。
KS曲线是将概率从小到大进行排序,取10%的值为阈值,同时将10%*k(k=1,2…)处值作为阈值,计算不同的FPR和TPR,以10%*k(k=1,2…)为横坐标,同时分别以TPR和FPR为纵坐标画出两条曲线就是KS曲线。
KS值 = |Max(TPR-FPR)|
5.capture rate
用于衡量在低分区间捕捉坏客户的能力,希望模型尽可能的在更靠前的箱内捕捉出更多的坏客户。
5.1将用户分数降序排列
5.2对排序后的用户进行等频分箱
5.3计算累计到每一箱的累计负样本数占所有副样本的比例