对于glm模型summary()输出的汇总结果,如何解读是非常重要的,它直接影响得出的结论。
例如下面这样一个输出结果,该如何理解呢?
Call:
glm(formula = bl ~ I, family = gaussian,data = anaData)
Deviance Residuals:
Min 1Q Median 3Q Max
-62.364 -14.278 -0.462 14.293 51.475
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 67.067 5.766 11.632 < 2e-16 ***
I 10.368 3.647 2.843 0.00521 **
根据课程所学并查阅有关参考书箱,理解如下:
一、调用
Call:
glm(formula = bl ~ I, family = gaussian,data = anaData)
当创建模型时,以上代码表明glm
是如何被调用。
二、残差统计量
Deviance Residuals:
Min 1Q Median 3Q Max
-62.364 -14.278 -0.462 14.293 51.475
残差第一四分位数(1Q
)和第三分位数(Q3
)有大约相同的幅度,意味着有较对称的钟形分布。
三、系数
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 67.067 5.766 11.632 < 2e-16 ***
I 10.368 3.647 2.843 0.00521 **
标记为Estimate
的列包含由普通最小二乘法计算出来的估计回归系数。
标记为Std. Error
的列是估计的回归系数的标准误差。
从理论上说,如果一个变量的系数是0
,那么该变量是无意义的,它对模型毫无贡献。然而,这里显示的系数只是估计,它们不会正好为0
。因此,我们不禁会问:从统计的角度而言,真正的系数为0
的可能性有多大?这是t
统计量和P
值的目的,在汇总中被标记为t value
和 Pr(>|t|)
。
P
值估计系数不显著的可能性,有较大P
值的变量是可以从模型中移除的候选变量。