对不起,我是新来WEKA,刚刚学习。
在我的决策树(J48)分类器输出中,有一个混淆矩阵:
a b <----- classified as
130 8 a = functional
15 150 b = non-functional
我这样说:
混淆矩阵是Weka报告这个J48模型在什么是对的,什么是错的方面有多好。
在您的数据中,目标变量是“函数”或“非函数”矩阵的右侧告诉您,“a”列是功能列,“b”列是非功能列。
这些列告诉您模型如何对样本进行分类——这是模型预测的:
另一方面,这些行代表了现实:
了解列和行,您可以深入了解细节:
因此,矩阵的左上角和右下角显示了您的模型得到的正确结果。
矩阵的左下角和右上角显示了模型混淆的地方。
你读过维基百科上关于混淆矩阵的页面吗?在他们的例子中,矩阵周围的文本排列略有不同(行标签在左边而不是右边),但你还是读了。
行表示真正的类,列表示分类器输出。然后,每个条目都会给出的实例数
因此,所有正确的分类都位于左上角到右下角的对角线上。任何偏离对角线的东西都是某种不正确的分类。
编辑:维基百科页面已经切换了行和列。发生了这种情况。在研究混淆矩阵时,请务必检查标签,看看它是真正的行类、列中的预测类还是相反。
如何分析Weka中的混淆矩阵,以获得准确度?我们知道,由于数据集不平衡,精度不准确。混淆矩阵如何“确认”准确性? 示例:a)准确率96.1728% b) 准确率:96.8% 等...
我想在weka中进行分类。我正在使用一些方法(随机树、随机森林、决策表、随机子空间...),但它们会给出如下结果。 然而,我希望结果作为准确度和混淆矩阵。我怎样才能得到这样的结果? 注意:当我使用小数据集时,它会以混淆矩阵的形式给出结果。它可以与数据集的大小相关吗?
我正在从事一个垃圾邮件过滤器挖掘项目,目前我正在使用NaiveBayesMultinomical分类器,通过计算单词出现的频率将垃圾邮件与非垃圾邮件进行分类。 问题是,WEKA在默认情况下将分类阈值设置为0.5。然而,将非垃圾邮件误分类为垃圾邮件比反之更有害。 我想调整WEKA的NaiveBayesMultinomical算法的阈值,看看混淆矩阵是如何变化的。如果不能直接实现,我如何利用WEKA的
我一直在使用Weka的J48决策树将RSS提要中的关键字频率分类为目标类别。我想我可能在协调生成的决策树与报告的正确分类的实例数以及混淆矩阵中的实例数方面存在问题。 例如,我的一个. arff文件包含以下数据摘录: 以此类推:总共有64个关键字(列)和570行,其中每一行都包含一天提要中关键字的频率。在这种情况下,10天内有57条feed,总共有570条记录需要分类。每个关键字都以代理项编号作为前
目前我们衡量分类器准确率的方式是使用以下公式:正确分类的记录数÷记录总数。 有时我们会需要一个更为详细的评价结果,这时就会用到一个称为混淆矩阵的可视化表格。 表格的行表示测试用例实际所属的类别,列则表示分类器的判断结果。 混淆矩阵可以帮助我们快速识别出分类器到底在哪些类别上发生了混淆,因此得名。 让我们看看运动员的示例,这个数据集中有300人,使用十折交叉验证,其混淆矩阵如下: 可以看到,100个