十七、更新预测

优质

小牛编辑

146浏览

2023-12-01

我们知道如何使用训练数据将一个点划分为两类之一。我们的分类只是对类别的预测，基于最接近我们的新点的，训练点中最常见的类别。

假设我们最终发现了我们的新点的真实类别。然后我们会知道我们的分类是否正确。另外，我们将会有一个新点，可以加入到我们的训练集中，因为我们知道它的类别。这就更新了我们的训练集。所以，我们自然希望，根据新的训练集更新我们的分类器。

本章将介绍一些简单的情况，其中新的数据会使我们更新我们的预测。虽然本章中的例子在计算方面较简单，但是更新方法可以推广到复杂的设定，是机器学习最强大的工具之一。

“更可能”的二分类器

让我们尝试使用数据，将一个点划分为两个类别之一，选择我们认为更可能的类别。为此，我们不仅需要数据，而且还要清楚地描述几率是什么样。

我们将从一个简单的人造情况开始，开发主要的技术，然后跳到更有趣的例子。

假设有个大学班级，其组成如下：

60% 的学生为二年级，其余的 40% 是三年级
50% 二年级学生已经声明了他们的专业
80% 三年级学生已经声明了他们的专业

现在假设我从班上随机挑选一个学生。你能否用“更可能”的标准，将学生划分为二年级或三年级？

你可以，因为这个学生是随机挑选的，所以你知道这个学生是二年级的几率是 60%。这比三年级的 40% 的可能性更大，所以你会把学生划分为二年级。

专业的信息是无关紧要的，因为我们已经知道班上二，三年的比例。

我们有了非常简单的分类器！但是现在假设我给了你一些被挑选的学生的更多信息：

这个学生已经声明了专业。

这个知识会改变你的分类吗？

基于新信息更新预测

现在我们知道学生已经宣布了专业，重要的是要看看年级和专业声明的关系。二年级的学生比三年级多，这仍然正确。但是，三年级的学生，比二年级的学生，声明专业的比例更高，这也是事实。我们的分类器必须考虑到这两个观察。

为了使这个可视化，我们将使用students表，它包含 100 个学生，每个学生一行，学生的年级和专业比例和数据中相同。

students.show(3)

Year	Major
Second	Undeclared
Second	Undeclared
Second	Undeclared

（省略了 97 行）

为了检查比例是否正确，我们使用pivot，按照这两个变量对每个学生进行交叉分类。

students.pivot('Major', 'Year')

Year	Declared	Undeclared
Second	30	30
Third	32	8

总人数为 100 人，其中二年级 60 人，三年级 40 人。二年级中，每个专业类别有 50%。三年级的 40 人中，20% 是未声明的，80% 已声明。因此，这 100 人的比例和我们问题中的班级相同，我们可以假定，我们的学生是从 100 名学生中随机抽取的。

我们必须选择学生最可能进入的那一行。当我们对这个学生一无所知时，他或她可能在四个单元格中的任何一个，因此更可能在第一行（二年级），因为那里包含更多的学生。

但是现在我们知道这个学生已经声明了专业，所以可能结果的空间已经减少了：现在学生只能在两个已声明的单元格中的一个。

这些单元格共有 62 名学生，其中 32 名是三年级。这是一半以上，即使不是太多。

所以，考虑到学生专业的新信息，我们必须更新我们的预测，现在将学生划分为三年级。

我们的分类的正确几率是多少？对于所有声明了专业的 32 个三年级，我们是正确的，对于那 30 个二年级，我们是错误的。因此，我们的正确几率大约是 0.516。

换句话说，我们正确几率是声明专业的学生中三年级的比例。

32/(30+32)
0.5161290322580645

树形图

我们刚刚计算的比例基于 100 名学生。但是班级没有理由没有 200 名学生，只要单元格中的所有比例都是正确的。那么我们的计算就变成了64 /(60 + 64)，就是 0.516。

所以计算只取决于不同类别的比例，而不是计数。为了便于比较，比例可以用树形图可视化，直接显示在数据透视表下方。

students.pivot('Major', 'Year')

Year	Declared	Undeclared
Second	30	30
Third	32	8

像数据透视表一样，该图将学生分成四个不同的组，称为“分支”。请注意，“三年级已声明”分支中的学生比例为0.4 x 0.8 = 0.32，对应于数据透视表中“三年级已声明”单元格中的 32 名学生。 “二年级已声明”分支中包含学生的0.6 x 0.5 = 0.3，对应于数据透视表中“二年级已声明”单元格中的 30 个。

我们知道，被挑选的学生属于“已声明”分支。也就是说，学生在两个顶层分支之一。这两个分支现在形成了我们的简化概率空间，所有几率的计算必须相对于这个简化空间的总概率。

所以，考虑到学生已声明专业，他们是三年级的几率可以直接从树中计算出来。答案是相对于两个“已声明”分类的总比例，“三年级已声明”分类的比例。

也就是说，答案是和以前一样，已声明的学生中三年级的比例。

(0.4 * 0.8)/(0.6 * 0.5  +  0.4 * 0.8)
0.5161290322580645

贝叶斯法则

我们刚刚使用的方法来源于托马斯·贝叶斯牧师（1701-1761）。他的方法解决了所谓的“逆向概率”问题：假设有了新的数据，如何更新之前发现的几率？虽然贝叶斯生活在三个世纪之前，但他的方法现在在机器学习中广泛使用。

我们将在学生总体的背景下讲述这个规则。首先，一些术语：

先验概率。在我们知道所选学生的专业声明状态之前，学生是二年级的几率是 60%，学生是三年级的几率是 40%。这是两个类别的先验概率。

可能性。这是专业状态在给出学生类别情况下的几率；因此可以从树形图中读出。例如，假设学生是二年级，已声明的可能性是 0.5。

后验概率。这些是考虑专业声明状态的信息后，二年级的概率。我们计算了其中的一个：

假设学生已经声明，学生是三年级的后验概率表示为，计算如下。

另一个后验概率是：

(0.6 * 0.5)/(0.6 * 0.5  +  0.4 * 0.8)
0.4838709677419354

这大概是 0.484，还不到一半，与我们三年的分类一致。

请注意，两个后验概率的分母相同：新信息，也就是学生已声明的几率。

正因为如此，贝叶斯方法有时被归纳为比例陈述：

公式非常便于高效地描述计算。但是在我们的学生示例这样的情况中，不用公式来思考更简单。我们仅仅使用树形图。

做出决策

贝叶斯规则的一个主要用途，是基于不完整的信息做出决策，并在新的信息到来时纳入它们。本节指出了在决策时保持你的假设的重要性。

许多疾病的医学检测都会返回阳性或阴性结果。阳性结果意味着，根据检测患者有疾病。阴性结果意味着，检测的结论是患者没有这种疾病。

医学检测经过精心设计，非常准确。但是很少有检测是 100% 准确的。几乎所有检测都有两种错误：

假阳性是，检测结果为阳性，但患者没有该疾病的错误。

假阴性是，检测结果为阴性，但患者确实有这种疾病的错误。

这些错误可能会影响人们的决策。假阳性可能引起焦虑和不必要的治疗（在某些情况下，这是昂贵的或危险的）。如果由于其阴性检测结果，患者未接受治疗，则假阴性可能具有更严重的后果。

罕见疾病的检测

假设总体很大，疾病只占总体的一小部分。下面的属性图总结了这种疾病的信息，以及它的医学检测。

总的来说，只有千分之四的总体有这种疾病。检测相当准确：假阳性几率非常小，为 5/1000，但是假阴性更大（尽管还是很小），为 1/100。

个体可能知道也可能不知道他们是否患有这种疾病；通常情况下，人们会进行检测来确认他们是否拥有。

所以假设随机从总体中挑选一个人并进行检测。如果检测结果是阳性的，你会如何分类：患病还是没有患病？

我们可以通过应用贝叶斯规则，和使用我们的“更可能”的分类器来回答这个问题。鉴于该人已经检测出阳性，他或她患病的几率是相对于Test Positive分支中的总比例，顶层分支的比例。

(0.004 * 0.99)/(0.004 * 0.99  +  0.996*0.005 )
0.44295302013422816

鉴于这个人已经检测出阳性，他或她有这种疾病的几率是大约 44%。所以我们将它们分类为：没有疾病。

这是一个奇怪的结论。我们有一个相当准确的检测，一个人检测出阳性，我们的分类是...他们没有这种疾病？这似乎没有任何意义。

面对一个令人不安的答案，首先要做的是检查计算。上面的算法是正确的。我们来看看是否可以用不同的方式得到相同的答案。

函数population群体返回 100,000 名患者的结果表格，它的列展示了实际情况和检测结果。检测与树中描述的相同。但是有这种疾病的比例是这个函数的参数。

我们将 0.004 用作参数来调用population，然后调用pivot，对这十万人中的每一个人进行交叉分类。

population(0.004).pivot('Test Result', 'True Condition')

True Condition	Negative	Positive
Disease	4	396
No Disease	99102	498

表的单元格计数正确。例如，根据总体的描述，一千人中有四人患有这种疾病。表格中有十万人，所以 400 人应该有这种病。这就是表格所显示的：4 + 396 = 400。在这 400 认中，99% 获得了阳性检测结果：0.99 x 400 = 396。

396/(396 + 498)
0.4429530201342282

这就是我们通过使用贝叶斯规则得到的答案。Positives列中的计数显示为什么它小于 1/2。在阳性的人中，更多的人没有疾病而不是有疾病。

原因是，很大一部分人没有这种疾病。检测出假阳性的一小部分人比真阳性要多。这在树形图中更容易可视化：

真阳性的比例是总体一小部分（0.004）的很大一部分（0.99）。假阳性的比例是总体很大一部分（0.996）的一小部分（0.005）。这两个比例是可比的；第二个大一点。

所以，鉴于随机选择的人检测为阳性，我们将他们划分为，更有可能没有疾病，是正确的。

主观先验

正确并不总令人满意。将阳性患者划分为不患有该疾病似乎仍然有些错误，对于这样的精确检测来说。由于计算是正确的，我们来看看我们的概率计算的基础：随机性假设。

我们的假设是，一个随机选择的人进行了检测，并得到了阳性结果。但是这在现实中并没有发生。因为他们认为他们可能有疾病，或者因为他们的医生认为他们可能有疾病，人们去接受检测。被检测的人不是随机选择的总体的成员。

这就是为什么，我们对被检测者的直觉与我们得到的答案不太相符。我们正在想象一个病人接受检测的现实情况，因为有一些理由让他们这样做，而计算基于随机选择的人进行检测。

所以让我们在更现实的假设下重做我们的计算，即病人正在接受检测，因为医生认为病人有发病的机会。

这里需要注意的是，“医生认为有机会”是指医生的意见，而不是总体中的比例。这被称为主观概率。在病人是否患有这种疾病的情况下，这也是主观的先验概率。

一些研究人员坚持认为，所有的概率必须是相对的频率，但主观概率导出都是。候选人赢得下一次选举的几率，大地震在下一个十年将会袭击湾区的几率，某个国家赢得下一届足球世界杯的几率：这些都不是基于相对频率或长期的频率。每个都包含主观因素。涉及它们的所有计算也都有主观因素。

假设医生的主观意见是，患者有 5% 的几率患病。那么树形图中的先验概率将会改变：

鉴于病人检测为阳性，他或她有这种疾病的几率是由贝叶斯规则给出。

(0.05 * 0.99)/(0.05 * 0.99  +  0.95 * 0.005)
0.9124423963133641

改变先验的效果是惊人的。即使病人患病的医生的先验概率（5%）很低，一旦患者检测出阳性，患病的后验概率高达 91% 以上。

如果患者检测出阳性，医生认为患者患病是合理的。

确认结果

虽然医生的意见是主观的，但我们可以产生一个人造总体，5% 的人患有这种疾病，并且使用相同的检测来进行检测。然后，我们可以计算不同类别的人数，看看这些计数是否与我们使用贝叶斯规则得到的答案一致。

我们可以使用population(0.05)和pivot构建相应的总体，并看看四个单元格中的计数。

population(0.05).pivot('Test Result', 'True Condition')

True Condition	Negative	Positive
Disease	50	4950
No Disease	94525	475

在这个人工创建的 10 万人的总体中，有 5000 人（5%）患有这种疾病，其中 99% 的人检测为阳性，导致 4950 人为真阳性。将其与 475 个假阳性相比：在阳性中，拥有疾病的比例与我们通过贝叶斯规则得到的结果相同。

4950/(4950 + 475)
0.9124423963133641

因为我们可以一个具有合适比例的总体，我们也可以使用模拟来确认我们的答案是否合理。 pop_05表包含 10 万人的总体，使用医生的先验患病概率 5%，以及检测的错误率来生成。我们从总体中抽取一个规模为 10,000 的简单随机样本，并提取positive表，仅包含样本中阳性检测结果的个体。

pop_05 = population(0.05)

sample = pop_05.sample(10000, with_replacement=False)

positive = sample.where('Test Result', are.equal_to('Positive'))

在这些阳性结果中，真实比例是多少？那是拥有这种疾病的阳性的比例：

positive.where('True Condition', are.equal_to('Disease')).num_rows/positive.num_rows
0.9131205673758865

运行这两个单元格几次，你会发现，阳性中真阳性的比例位于我们通过贝叶斯规则计算的值 0.912 周围。

你也可以以不同参数调用population函数，来改变先验患病概率，并查看后验概率如何受到影响。