模型的预估值往往存在偏差,其原因包括:
以点击率估计为例,某些场景下,有偏点击率是可以直接使用,比如排序场景下重要的是估计值的相对大小,点击率绝对值并不重要;另一些场景下,有偏估计值需要经过校正后才能使用,比如过滤逻辑中点击率的绝对值就会影响物品会不会被过滤掉,例如风控模型,另外将点击率作为其他模型输入的情况下,点击率的绝对值也是有意义的。
模型校准的方法主要有Platt Scaling和Isotonic Regression,前者适用于样本量较少的情况,后者适用于样本量较多的情况。本文主要介绍后者,有空再补充前者的介绍。
Isotonic regression的模型定义如下:
y i = f ( x i ) + ϵ y_i=f(x_i)+\epsilon yi=f(xi)+ϵ
其中 x i x_i xi为估计值, y i y_i yi为真实值, f f f为估计值到真实值的映射, ϵ \epsilon ϵ为误差。Isotonic regression的目标为找到一个估计值到真实值的单调递增函数 f ^ \hat{f} f^,满足:
f ^ = A r g M i n f ( y i − f ( x i ) ) 2 , 1 ≤ i ≤ N \hat{f}=ArgMin_{f}(y_i-f(x_i))^2,1\le i\le N f^=ArgMinf(yi−f(xi))2,1≤i≤N
其实就是真实值的最小二乘估计,额外的约束是映射必须是单调递增的。Isotonic regession的一种求解算法称为PAV算法,时间复杂度为o(n),这里不展开介绍了。
以点击率为例,应用isotonic regession一般分为以下几个步骤: