统计学是一门综合性的学科,会通过收集、处理、分析、描述等一系列步骤从数据中得出结论。以下分别介绍包括描述统计和推断统计在内的统计学的基本方法论,以这两种方法论为分析主线能够较为全面地对数据进行分析。
1) 描述统计
描述统计通过图表或数学方法,对样本数据进行整理、分析,然后概括总结出反映客观现象的规律。其中图表描述方法就是使用各类图表在不同的维度下描述数据,比如直方图、饼图、雷达图、散点图等等。而数学描述方法的分析方法更丰富,常有集中趋势分析、离散程度分析、相关分析三种分析方法。
A. 集中趋势分析
平均数、中数、众数等是集中趋势分析常用来表示数据集中趋势的统计指标,通过这些指标能够反映样本数据的一般水平。
B. 离散程度分析
离中趋势分析主要依赖标准差、方差(协方差)等统计指标来研究数据的离散程度,能够出色地表示数据之间的差异程度。
C. 相关分析
无论是自变量与自变量之间还是自变量与因变量之间都存在潜在地关联性,相关分析探讨的就是变量之间是否具有统计学上的关联性。进行相关分析时,变量数量可以是两个也可以是多个,能够进行单一或多重相关关系分析。
2) 推断统计
推断统计是一种通过样本数据来推断总体特征的统计方法,以部分抽样样本进行延伸推论,并进一步给出推理性结论。
A. 参数估计
顾名思义,参数估计就是根据样本数据对总体参数进行估计的过程,可分为点估计和区间估计两种分析方法。点估计是以样本具体数值为代表数据,区间估计是根据样本数据,计算置信区间及该区间的置信度。
B. 假设检验
假设检验是一种先假设后推理论证检验的思想。首先对总体参数提出一个假设,然后基于样本数据判断该假设是否成立,做出接受还是拒绝该假设的结论。
参考答案: 1. 新冠病毒潜伏期(统计学知识点:数据分布) 2. 疾病的潜伏期通常可以用对数正态分布来近似,我们现阶段采取的隔离措施是将一般潜伏期设定为14天内,但是在后续的病例中我们发现个别患者的潜伏期长达24天,并不是病毒发生了变异,而是新冠病毒的潜伏期实际呈右偏状态,属于长尾分布,较长潜伏期的病例并非不会出现,而是概率很小。新冠病毒传播(统计学知识点:随机过程) 病毒传播实际上是一个随机事件,这一过程可以用随机微分方程来进行模拟,比如SEIR模型。 (1)易感状态S (Susceptible)∶表示潜在的可感染个体。在以往的一些文章中,会有学者将S设置为一个地区的总人口数,导致模型中的感染人数预测结果偏高,这是因为实际上只有有机会接触到感染者的个体才属于易感人群,因此易感状态个体的数量最好由实际数据去拟合。 (2)潜伏状态E(Exposed)∶已被感染但尚未表现出感染症状的个体。 (3)感染状态I(Infected)∶已有感染症状并且可以将疾病传染给其他人的个体。 (4)移除状态R(Removed)∶已经治愈并获得免疫力或已经死亡等不会再被传染的个体。记N为人群中个体的总数量,则有N = S+E+Ⅰ+R。 1. 新冠患者诊断(统计学知识点:模型评价) 2. 疫情期间,随着病毒不断传播,全国各地每天都在进行核酸检测与病例诊断,但现阶段我们无法完全准确地区别出病例,这就有可能导致误诊。各种检测手段和医生的诊断结合起来类似一个判别模型,患者的各项指标输入到这个模型得出最终的分类结果,患者的实际患病情况和医生的诊断结果共同构成混淆矩阵,当误诊率越低,说明当前的模型(诊断方法)越好。疫情分析观测指标(统计学知识点:基本统计指标) 感染率=感染人数/总人口数 病死率=因某种病死亡人数/患病人数 死亡率=因某种疾病死亡人数/总人口数=感染率*病死率
方差分析(Analysis of variance,简称ANOVA)为数据分析中常见的统计模型,主要为探讨连续型因变量与类别型自变量的关系,当自变量的因子中包含等于或超过三个类别情况下,检验其各类别间平均数是否相等的统计模式。广义上可将T检验中方差相等的合并T检验视为是方差分析的一种,基于T检验为分析两组平均数是否相等,实际上当方差分析套用在合并T检验的分析上时,产生的F值则会等于T检验的平方项。 方差分析依靠F-分布为概率分布的依据,利用平方和与自由度所计算的组间与组内均方估计出F值,若有显著差异则考量进行事后比较或称多重比较。 在方差分析的基本运算概念下,