当前位置: 首页 > 工具软件 > Hypothesis > 使用案例 >

【统计学学习笔记】第七章 假设检验(hypothesis testing)

方和宜
2023-12-01

1. 假设建议的理解:

假设检验,顾名思义:是对猜想(假设)的检验,即通过一些数学的方法,定量的说明自己猜想是否成立的过程。而这个定量说明的过程,其实就是算概率的过程。【用算出的概率和小概率进行比较,代表结论的正确性】

1.1 得出的第一步:提出假设(猜想)

  • 猜想:通过观察,总结出来的可能成立的结论

比如说:小明惊奇的发现,自己周围的女生学业成绩普遍比男生更好,于是小明提出了一个大胆的猜想——女生的学业成绩总体好于男生。

1.2 为什么假设会出错:万恶的抽样误差

上述过程,是一个用样本估计总体的过程。这样的过程,我们在上文《参数估计》中也有提到,并且在区间估计中还说到“这样用样本估计总体的行为是有可能发生错误的”,而造成这个错误的原因是由于存在抽样误差。

  • 抽样误差:测量样本和总体特征近似程度的量数,即样本统计量和总体参数之间的差。
  • 偶然因素:一些不能控制的,或者没注意到的误差。

换句话来说,可能只是恰巧在小明周围的女生学业水平比男生好,或者是一些偶然因素导致小明周围女生学业成绩更好,不能说明所有的女生学业水平普遍比男生好。【样本不等于总体】

抽样误差可以通过合理的选择抽样方法来减少,但是很难根除的。

1.3 何为显著性:偶然因素影响结果的概率

刚才我们说道:抽样误差能够减少,但是很难根除,并且偶然因素不受人们的控制。但是,只是因为存在抽样误差和偶然误差,就放弃自己的假设未免有些不太好。因此人们提出了一个新的概念:叫做显著性水平,来衡量忽略由于 处理因素或需要检验的因素 引起的所需要承担的风险。

  • 显著性水平:指当原假设为正确时人们却把它拒绝了的概率或风险。

比如说:小明在考试中分数比小红低,那么能说明小红的成绩比小明好吗?由于考试存在各种偶然因素,所以我们并不能如此草率的下结论。但是如果存在这样的情况呢?

  1. 小明老是考的比小红低
  2. 小明这次考的比小红低了很多分

这样能不能得出上边的结论呢?可能我们也不能保证,但是我们可以知道的是“小红成绩好于小明”是真的的概率,更大了。当这个概率达到一定的程度【超过阈值】的时候,我们就可以说,这个结论是对的了。

  • 接受阈值:能够接受的犯错概率的临界值(通常取 0.05 0.05 0.05或者 0.01 0.01 0.01

1.4 小小的总结:

假设检验可以从两个方面进行理解,实际上二者讲的是同一个问题。

  • 一次实验中小概率事件不可能发生:

    1. 根据自己的假设,计算对应现实情况【已经遇到的】发生的概率。
    2. 若概率小于阈值,则说明假设不成立
    3. 因为在一次实验中小概率事件不可能发生,如果发生说明假设存在错误【不成立】。
  • 犯错概率能够接受:

    1. 根据自己的假设,计算这个假设出现错误的概率。
    2. 若概率小于阈值,则说明假设成立
    3. 因为犯错的概率极其的小,所以能够接受。

2. 假设检验的数学过程

假设检验主要是对两个变量之间差异的检验

2.1 相关概念:

  • 零假设(null hypothesis):假设正在研究的两个变量之间是等同的或者无关的。
  • 研究假设(research hypothesis):不等价陈述,假定变量间存在一定的关系。
    1. 无方向假设:反映群体间的差异,但差异的方向是不确定的。
    2. 有方向假设:反映群体间的差异,且差异的方向是确定的。

一个例子:

假设研究内容为:男生和女生的记忆考试的平均成绩是否存在差异?

零假设( H 0 : μ 1 = μ 2 H_{0}:\mu_{1} = \mu_{2} H0μ1=μ2):男生和女生的记忆考试的平均成绩不存在差异?

研究假设( H 1 H_{1} H1):

  1. 无方向假设( H 1 : μ 1 ≠ μ 2 H_{1}:\mu_{1} \neq \mu_{2} H1μ1=μ2):男生和女生的记忆考试的平均成绩存在差异?
  2. 有方向假设( H 1 : μ 1 > μ 2 H_{1}:\mu_{1} > \mu_{2} H1μ1>μ2):男生和女生的记忆考试的平均成绩高于女生?【低于同理】
  • 第一类错误(弃真【 α \alpha α】错误):在零假设真实的情况下,拒绝零假设。【错杀】
  • 第二类错误(取伪【 β \beta β】错误):在零假设虚假的情况下,接受零假设。【放过】

在样本量不变的情况下,不能同时减少第一类和第二类错误,往往会根据实际情况进行取舍

  • 如检测新冠肺炎:宁可错杀,也不可放过【因为放过带来的代价远大于错杀】

如果你是一个贪心的人,握了握拳头说:我全都要!那么不好意思,只能去找更多的样本。

2.2 假设检验的步骤

在此以一个例子进行说明:

据报道,高校大学生平均每周上网时间为8小时,某校统计小组随机调查了该校100名学生,得知他们平均每周上网课时间为6.5小时,样本标准差为2小时。设大学生每周上网时间服从正态分布,问在显著性水平 α = 0.05 \alpha=0.05 α=0.05下,能否认为该校学生每周上网时间明显低于 8 8 8小时?

 类似资料: