当前位置: 首页 > 知识库问答 >
问题:

关于使用朴素贝叶斯进行分类,改进结果

李敏学
2023-03-14

我有一个数据集,有10个类,每个类40个示例(总共400个示例)
我为每个示例提取了大约27个特征。我使用了朴素贝叶斯分类器,使用十倍交叉验证,获得了大约96.75%的准确率。

我从混淆矩阵中注意到,十个类中只有两个类混淆了几个示例,而其余的类总是分类正确。然后,我决定删除除这两个类之外的所有其他类,保留相同数量的特征,并重新运行朴素贝叶斯分类器;它总是能够将示例正确地分为两类。

我很困惑为什么会发生这种情况,以及如何改进我的总体分类器。我真的没想到贝叶斯分类器能够更好地预测这两个类。我尝试了各种折叠组合,百分比分割,它总是在没有其他8个类的情况下正确地分类这两个“问题”类。我是不是在谈论分类的增强/装袋/集成方法的想法?我的策略应该是使用一个分类器处理“问题”类,而使用另一个分类器处理其余的类吗?我想我本想做一个分类器,它可以处理所有的事情。

共有1个答案

拓拔松
2023-03-14

这两门难学的课程有可能被另一门课程完全或部分掩盖。删除其他类可能允许您区分这两个类,但可能仍然很难将这两个类从整个数据中分离出来。

你可以想象下面的情况是真的(蓝点被红色遮住了)。移除红点使蓝点和黑点很容易分开。

为了看看您是否会从多个分类器中受益(如您所建议的),我会将两个困难的类合并为一个,并在其他类存在的情况下检查您的分类能力。如果您能够准确地做到这一点,那么您可以放心地继续使用您的多个分类器。

 类似资料:
  • 分类阶段比较简单,直接应用贝叶斯公式就可以了,让我们试试吧! 通过训练,我们得到以下概率结果: 比如下面这句话,要如何判断它是正面还是负面的呢? I am stunned by the hype over gravity. 我们需要计算的是下面两个概率,并选取较高的结果: P(like)×P(I|like)×P(am|like)×P(stunned|like)×... P(dislike)×P(I

  • 还是让我们回到运动员的例子。如果我问你Brittney Griner的运动项目是什么,她有6尺8寸高,207磅重,你会说“篮球”;我再问你对此分类的准确度有多少信心,你会回答“非常有信心”。 我再问你Heather Zurich,6尺1寸高,重176磅,你可能就不能确定地说她是打篮球的了,至少不会像之前判定Brittney那样肯定。因为从Heather的身高体重来看她也有可能是跑马拉松的。 最后,

  • 上例的数据格式如下: both sedentary moderate yes i100 both sedentary moderate no i100 health sedentary moderate yes i500 appearance active moderate yes i500 appearance moderate aggressive yes i500

  • 我一直在使用Weka的J48和Naive Bayes多项式(NBM)分类器对RSS提要中的关键字频率进行分类,以将提要分类为目标类别。 例如,我的一个。arff文件包含以下数据提取: 以此类推:总共有570行,每行都包含一天的提要中关键字的频率。在这种情况下,10天内有57条feed,总共有570条记录需要分类。每个关键字都以代理项编号作为前缀,并以“频率”作为后缀。 我在“黑盒”的基础上对J48

  • 我们会在这章探索朴素贝叶斯分类算法,使用概率密度函数来处理数值型数据。 内容: 朴素贝叶斯 微软购物车 贝叶斯法则 为什么我们需要贝叶斯法则? i100、i500健康手环 使用Python编写朴素贝叶斯分类器 共和党还是民主党 数值型数据 使用Python实现

  • 在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法,比如决策树,KNN,逻辑回归,支持向量机等,他们都是判别方法,也就是直接学习出特征输出Y和特征X之间的关系,要么是决策函数Y=f(X),要么是条件分布P(Y|X)。但是朴素贝叶斯却是生成方法,也就是直接找出特征输出Y和特征X的联合分布P(X,Y),然后用P(Y|X)=P(X,Y)/P(X)得出。 朴素贝叶斯