⾟普森悖论指在某个条件下的两组数据,分别讨论时都会满⾜某种性质,可是⼀旦合并考虑却可能导致相反的结论。为了避免⾟普森悖论导致我们得出两个相反的结论,我们需要选择将数据分组或将 它们聚合在⼀起。其中我们要学会思考因果关系:数据如何⽣成,基于此,哪些因素会影响我们未展示的结果?
例如美国加州大学研究生录取数据的分析中,目的是探究伯利克里分校研究生录取是否存在性别歧视。即性别与录取率的关系。但是性别会导致兴趣的不同,而兴趣会决定专业的不同,不同专业的录取率也会不同。总体上,我们只看到了性别和录取率的关系,但是却忽略了专业这个内在原因。而拆分专业去观察,就是控制男女在专业上是相同的,这样更有利于判断因果关系。
若为较成熟健康的体系中,应为后者;在初期时为前者。 在较健康的供给端体系中,司机端的订单构成应为倒三角或者菱形分布,即头部和腰部司机的订单较多,尾部的订单较少;而在初期时则是头部效应明显,订单集中在头部,后期随着司机和订单量的增多,不可能由头部司机撑起大部分订单的。
贝叶斯定理(Bayes' theorem)是概率论中的一个定理,描述在已知条件下,某事件的发生概率。通常,事件A在事件B已发生的条件下发生的概率,与事件B在事件A已发生的条件下发生的概率是不一样的。然而,这两者是有确定的关系的,贝叶斯定理就是这种关系的陈述。贝叶斯公式的一个用途,即透过已知的三个概率而推出第四个概率。贝叶斯定理跟随机变量的条件概率以及边际概率分布有关。
贝叶斯定理常用在信息检索、文本分类、疾病检测等场景。
应用举例(疾病检测):
假设一个常规的检测结果的灵敏度和特异度均为99%,即患病者每次检测呈阳性(+)的概率为99%,而未患病者每次检测呈阴性(-)的概率为99%。假设医院对全体就诊人员进行疾病检测,已知0.5%的就诊者患病,请问每位检测结果呈阳性的就诊者患病的概率有多高?
令“D”为就诊人员患病事件,“N”为就诊人员未患病事件,“+”为检测呈阳性事件,则某人检测呈阳性时确实患病的条件概率为:
朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。“朴素”是指假定给定目标值时属性之间相互条件独立。 优点:
朴素贝叶斯算法假设了数据集属性之间是相互独立的,因此算法的逻辑性十分简单,并且算法较为稳定,当数据呈现不同的特点时,朴素贝叶斯的分类性能不会有太大的差异。即朴素贝叶斯算法的稳定性比较好,对于不同类型的数据集不会呈现出太大的差异性。当数据集属性之间的关系相对比较独立时,朴素贝叶斯分类算法会有较好的效果。 缺点:
数据集属性的独立性在很多情况下是很难满足的,因为数据集的属性之间往往都存在着相互关联,如果在分类过程中出现这种问题,会导致分类的效果大大降低。
7/16 几何概型。在平面坐标系下,0<x,y<1,|x-y|<15/60,满足条件的面积即为1-3/4 * 3/4=7/16
6次 假设期望次数为X,有三种情况:1.第一次为反面,则期望需要X+1次;2.前两次都为反面,则期望需要X+2次;3.前两次均为正面,结束。建立方程;解得X=6。
1个红球放在一个箱子,其余99个球放在另一个箱子里。 该情况下,P(拿到红球)=0.5+0.5(49/99)≈ 0.75(74/99)
0.41 ● 20个人可能的生日组合是365×365×365×……×365(20)个; ● 20个人生日都不重复的组合是365×364×363×……×346(20)个; ● 20个人生日有重复的概率是1-b/a。 这里,20个人生日全不相同的概率是b/a=0