本章的开头我们对分类器的效果提了几个问题,并在此之后使用十折交叉验证和混淆矩阵来对分类器进行评估。 上一节中我们对加仑公里数分类器的评价结果是53.316%的正确率,那这个结果是好是坏呢? 我们就需要使用一个新的指标:Kappa指标。 Kappa指标可以用来评价分类器的效果比随机分类要好多少。 我们仍用运动员的例子来说明,以下是它的混淆矩阵: 我增加了“合计”一列,因此在计算正确率时,我们只需将对
主要内容:1.数据仓库概念,2.离线大数据架构,3.Lambda 架构,4.Kappa 架构,5. Lambda 架构与 Kappa 架构的对比1.数据仓库概念 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。 数据仓库概念是 Inmon 于 1990 年提出并给出了完整的建设方法。随着互联网时代来临,数据量暴增,开始使用 大数据工具 来替代经