当前位置: 首页 > 知识库问答 >
问题:

Weka预测(百分比置信度)-它是什么意思?

翟宾实
2023-03-14

我一直在自学Weka,并学会了如何构建模型并从中获得预测(使用CLI进行预测)。

当我对先前构建的模型中的数据集运行预测时,我会得到一列,即“预测”,也就是每个预测实例的预测置信度。

我知道百分置信度意味着什么,但我的所有预测不都应该是我的Weka模型的准确性吗?

也就是如果我有一个准确率为90%的J48决策树分类器,那么使用该模型的每个分类实例不应该都是90%的预测置信度吗?

任何人都知道这个百分比置信度是如何计算的,或者当我告诉别人我的模型时,我应该如何阅读错误预测和模型准确性?谢谢

共有1个答案

胥宏义
2023-03-14

基本上,当决策树在数据集上进行训练时,您通常希望(或由于缺少特性而不得不)在它超出每个训练实例之前停止它。发生这种情况时,您将在树中的叶节点上有几个训练样本。在这一点上,培训标签通常仍然是混合的(不全是正面的,也不全是负面的)

置信度是指当树在训练实例中长到一片叶子时,训练标签的一致性。

编辑:注意,这还用于以干净、无偏见的方式处理缺少的特征(属性)。

有关此的简要定义,请参阅此处。

还可以看看昆兰在决策树方面的一些工作。尤其是他在C4.5上的工作

此外:“我知道百分比信心意味着什么,但我所有的预测不应该都是我的Weka模型的准确性吗?”

不,这不是真的,一些训练样本比其他样本更容易分类,这些分数反映了这一点。

 类似资料:
  • 我是使用WEKA的初学者。问题是当我试图通过使用提供的测试集选择在我的模型上测试新数据集时,预测是可以的,但它在错误字段中给出了标志,这意味着什么?.此外,混淆矩阵和准确性细节给出了一些空格。 有没有可能所有的ST预测都错了?我搜索了很多来找出这个问题,但没有结果。 训练和测试数据是兼容的,测试数据是标记的。

  • 问题内容: 我读到: 每当需要对集合进行排序时,元素必须相互可比。 我写了下面的代码,它可以正常工作。您能告诉我们b类和c类如何相互可比,“相互可比”是什么意思? 问题答案: 为了类和以可相互比较的,这些需求需要满足: 的通话上的一个实例,通过实例必须允许 的通话上的一个实例,通过实例必须允许 如果返回,则 必须 返回具有相反符号或零的值(当为零时)。 在你的代码中的类不可相互比较,因为试图通过一

  • 我不明白JMH结果的分数属性?我也没在网上找到任何关于它的东西。 有人能告诉我,这是关于什么的吗?据我所知,高分比低分好,但这到底是什么意思,是如何计算的?

  • 我对机器学习很陌生。对不起,如果我的英语有任何错误。 我使用weka J48分类来预测是真是假。我有将近999K的训练套件,我用来训练模型。我使用了3倍的交叉验证方法来训练模型,使我的准确率达到了约84%。 现在在存储模型之后。我试着在50k数据集上测试它。结果非常糟糕,其中50%是不匹配的。我有11个属性,包括名词和数字字段。 我不知道为什么会这样。 我有两个问题。 我怎样训练才能在测试集中表现

  • 问题内容: 如果您查看CSS盒模型规范,将会观察到以下内容: [margin]百分比是相对于所生成的盒子的包含块的 宽度 来计算的。 请注意,“ margin-top”和“ margin- bottom”也是如此。 如果包含块的宽度取决于此元素,则结果布局在CSS 2.1中未定义。 (强调我的) 确实是这样。但是 为什么 呢?到底什么会迫使任何人以这种方式设计它?很容易想到您想要的场景,例如,某件

  • 管道分支惩罚是ALU和IF之间非零距离的结果。 这句话是什么意思?