问题：

weka中的机器学习分类与预测

卜飞鸣

2023-03-14

我对机器学习很陌生。对不起，如果我的英语有任何错误。

我使用weka J48分类来预测是真是假。我有将近999K的训练套件，我用来训练模型。我使用了3倍的交叉验证方法来训练模型，使我的准确率达到了约84%。

现在在存储模型之后。我试着在50k数据集上测试它。结果非常糟糕，其中50%是不匹配的。我有11个属性，包括名词和数字字段。

我不知道为什么会这样。

我有两个问题。

我怎样训练才能在测试集中表现得更好
可能出现的问题

我在java中使用weka api。

共有1个答案

韩涵衍

2023-03-14

这意味着你的模型过于适合你的999k训练集，不能很好地推广到你的50k测试集。

除了999k之外，您还应该考虑与50k数据集（很大一部分，但不是全部）进行交叉验证。

你可能还想尝试比k=3，k倍交叉验证更高的东西，因为k=3倍可能太“粗糙”。祝你好运

类似资料：

机器学习：多分类

每次将一个类别作为正类，其余类别作为负类。此时共有（N个分类器）。在测试的时候若仅有一个分类器预测为正类，则对应的类别标记为最终的分类结果。【例】当有4个类别的时候，每次把其中一个类别作为正类别，其余作为负类别，共有4种组合，对于这4中组合进行分类器的训练，我们可以得到4个分类器。对于测试样本，放进4个分类器进行预测，仅有一个分类器预测为正类，于是取这个分类器的结果作为预测结果，分类器2预测的结果是类别2，于是这个样本便属于类别
机器学习：聚类分析

监督学习使用标记数据对 (x,y) 学习函数：X\rightarrow Y 。但是，如果我们没有标签呢？这类没有标签的学习方式被称为无监督学习。无监督学习：如果训练样本全部无标签，则是无监督学习。例如聚类算法，就是根据样本间的相似性对样本集进行聚类试图使类内差距最小化，类间差距最大化。主要用途：自动组织数据。理解某些数据中的隐藏结构。在低维空间中表示高维数据。
机器学习与深度学习

主要内容：数据量,硬件依赖,特色工程在本章中，我们将讨论机器和深度学习概念之间的主要区别。数据量机器学习使用不同数量的数据，主要用于少量数据。另一方面，如果数据量迅速增加，深度学习可以有效地工作。下图描绘了机器学习和深度学习在数据量方面的工作 - 硬件依赖与传统的机器学习算法相反，深度学习算法设计为在很大程度上依赖于高端机器。深度学习算法执行大量矩阵乘法运算，这需要巨大的硬件支持。特色工程特征工程是将领域知识放入指定特征的
Weka分类

我试图在一个有32个属性的数据集上对分类机器学习算法进行数据建模，最后一列是目标类。我将属性数从32改进为6，我觉得这对我的分类模型更有用。我尝试执行J48和一些增量分类算法。我期望输出结构包括混淆矩阵、更正和分类错误的实例、kappa值。但是我的结果没有给出任何关于正确和错误分类实例的信息。此外，它也没有预测混淆矩阵和Kappa值。我收到的只是这样： ===总结=== 相关系数0.9482
写给人类的机器学习

本指南旨在让任何人访问。将讨论概率，统计学，程序设计，线性代数和微积分的基本概念，但从本系列中学到东西，不需要事先了解它们。
机器学习

Python 有着海量的可用于数据分析、统计以及机器学习的库，这使得 Python 成为很多数据科学家所选择的语言。下面我们列出了一些被广泛使用的机器学习及其他数据科学应用的 Python 包。 Scipy 技术栈 Scipy 技术栈由一大批在数据科学中被广泛使用的核心辅助包构成，可用于统计分析与数据可视化。由于其丰富的功能和简单易用的特性，这一技术栈已经被视作实现大多数数据科学应用的必备品了。

weka中的机器学习分类与预测

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档