上过吴恩达老师的机器学习课程的都熟悉,吴恩达老师在引出Linear Regression的时候是用了一个房价的例子来说明,这里我们同样拿房价这个量来说事。
首先引出一个增量delta,这个变量往往用来分析某个量(如房价)的真实值与预测值之间的误差,这个误差一般来说,我们认为它是服从正态分布的,因为它是由许多个微小的因素(如采光,地段,交通等因素)的综合影响造成的。
其实在许多实际问题中,很多随机现象都可以看成众多因素的独立影响的综合反应(加性误差),往往近似于正态分布,如果大家还记得中心极限定理的物理意义,那么意义就在这里;当然如果上述误差量是乘性误差,就需要取其对数或做其他处理。
想象一下,泊松分布是不是很像正态分布;多次均匀分布求和在求平均是不是也能得到正态分布,等等。
说到这里,如果你还不是太明白,那我们接着往下看。
首先,建立一个线性模型;
其次,利用MLE(极大似然估计)个高斯分布得到目标函数(至此这里引出了最小二乘学习法);
注:在这一步中,在1804年高斯曾经反过来推导出了高斯分布,这也是高斯分布的由来。
最后,求取目标函数最小值,这里有两种方法;
–直接计算驻点,但是会涉及到求矩阵的逆;
–梯度下降法,避免了求矩阵的逆;
上面说到,假设参数服从高斯分布,然后利用MLE,得到一个目标函数,再做优化,这就是Linear Regression的基本步骤,那么如果从其引出Logistics Regression呢?好接着往下看。
先来说下二项分布与k项分布;
如果是一个二分类问题,那么很明显可以看成是两点分布;
如果有m个样本点,那么就是一个二项分布,相当于重复m次实验;
那我们来以此类举;
如果是一个多分类问题呢,比如3分类,10分类,甚至更多乃至K类,那么我们可以将其叫做k点分布,哈哈;
同样的,如果有个m个样本点,就可以转化成一个k项分布;
好,我们暂且先记着这两个名字:k点分布和k项分布;
前方高能。。。。。。。。
。。。。。。。。。。。。分割线。。。。。。。。。。。。。。。。
如果我们把Linear Regression中的高斯分布换成k项分布或者多项式分布(注意,k项分布和二项分布都属于多项式分布),其他的不变,这时就变成了Logistics Regression和Softmax Regression;
Logistics Regression是一个二分类,或者叫0-1分类;
Softmax Regression就是一个多分类(0-1-2-…);
Linear Regression可以对样本是非线性的,但只要对参数是线性的,就可以使用Linear Regression,对于x是否是线性无所谓,但是需要有时候做特征选择;
Linear Regression是连续的,Logistics Regression与Softmax Regression是离散的;
Logistics Regression仍然属于线性回归的范畴,因为分界面是线性的,而且Logistics Regression是广义线性模型(GLM)或者叫对数线性模型(LLM);
Linear Regression取对数似然的最小,所以在做梯度下降时,往负梯度方向;Logistics Regression则取对数似然的最大,做梯度下降往正梯度方向,但有时为了与线性回归保持一致,通常会取负对数似然;
一般而言,LR指的是Logistics Regression,而非Linear Regression;
Logistics Regression与Softmax Regression是真正做分类的首选,由于方法简单,易于实现,效果良好,易于解释,除了用于分类,还可以用于推荐系统;
在做特征选择的时候要注意,有些时候,并不是特征越多,拟合效果越好;
最后想提一下一个比较特殊的分布—指数族分布;
大多数分布都可以写成指数形式,即:
f(x) = Cexp(Ag(x)+B)
这就是一个指数族分布,如泊松分布,甚至是伯努利分布,都属于指数族分布;提一下,Sigmoid函数就是由伯努利分布的指数族分布中推导计算得来的。
指数族概念的提出,是为了说明广义线性模型(GLM),凡是符合指数族分布的随机变量,都可以用GLM回归来分析。