我今天开始使用Weka。我使用一个包含虚拟信息的. arff文件。然后,我使用weka来获取结果。但是,问题是我不确定weka正在做什么来获取结果。例如,使用Heoffding Tree,我在错误分类的结果上得到了75%和25%的正确分类实例结果;75%到底是什么?weka做了什么来获得75%的正确分类结果?谢谢!
假设您正在使用Weka Explorer及其“分类”窗格,评估结果取决于您在“测试选项”框中的设置。
这里的默认设置是10倍的“交叉验证”。使用此设置,您的输入数据被分成10个大小大致相同的部分。然后,Weka执行10次训练和评估,并最终为您提供平均性能。这个过程在stackoverflow帖子中有更详细的解释
我最近开始使用weka,我正试图使用朴素贝叶斯将推特分类为正面或负面。所以我有一个训练集,上面有我给的标签,还有一个测试集,上面有所有标签都是“肯定的”。当我运行Naive Bayes时,我得到以下结果: 正确分类实例:69 92%错误分类实例:6 8% 然后,如果我将测试集中推文的标签更改为“否定”并再次运行朴素贝叶斯,结果会颠倒: 分类正确的实例:6.8%分类错误的实例:69.92% 我认为正
我是weka的新手。我有一个csv数据集,有5000个样本。这里有20个样本;当我将这个数据集上传到weka时,它看起来还可以,但是当我运行knn算法时,它会给出一个不应该给出的结果。这是样本数据。 a, b, c, d 74,85,123,1 73,84,122,1 72,83,121,1 70,81,119,1 70,81,119,1 69,80,118,1 70,81,119,1 70,81
我一直在使用Weka的J48决策树将RSS提要中的关键字频率分类为目标类别。我想我可能在协调生成的决策树与报告的正确分类的实例数以及混淆矩阵中的实例数方面存在问题。 例如,我的一个. arff文件包含以下数据摘录: 以此类推:总共有64个关键字(列)和570行,其中每一行都包含一天提要中关键字的频率。在这种情况下,10天内有57条feed,总共有570条记录需要分类。每个关键字都以代理项编号作为前
我试图在一个有32个属性的数据集上对分类机器学习算法进行数据建模,最后一列是目标类。我将属性数从32改进为6,我觉得这对我的分类模型更有用。 我尝试执行J48和一些增量分类算法。我期望输出结构包括混淆矩阵、更正和分类错误的实例、kappa值。 但是我的结果没有给出任何关于正确和错误分类实例的信息。此外,它也没有预测混淆矩阵和Kappa值。我收到的只是这样: ===总结=== 相关系数0.9482
我需要构建一个Weka分类器,然后使用它来预测未来的实例。这里有一个很好的入门来源。不幸的是,我注意到未来的实例不需要与源训练数据的格式匹配。 如何利用训练数据和新实例之间的这种差异进行预测? 示例火车: @关系列车 @属性A1{e,f,g} @属性A2数值 @属性A3数值 @属性A4{正,负} @数据 e,-100,100,阳性 f,-10,10,阳性 g,-90,90,阴性 示例测试: @关系
我正在为一个方法编写测试,该方法为不同的扩展文件返回。 对于返回 对于非压缩文件返回 如何断言OutputStreamWriter包含或?