所以我们在一组15k推文上运行多项式朴素贝叶斯分类算法。我们首先根据Weka的StringToWordVector函数将每条推文分解成一个单词特征向量。然后,我们将结果保存到一个新的arff文件中,作为我们的训练集提供给用户。我们用另一组5k推文重复这个过程,并使用从我们的训练集中导出的相同模型重新评估测试集。
我们想做的是输出weka在测试集中分类的每个句子及其分类...我们可以看到算法的性能和准确性的一般信息(精度,召回,f-得分),但我们不能看到由weka分类的单个句子,基于我们的分类器...有办法这么做吗?
另一个问题是,最终我们的教授会给我们20k更多的推文,并期望我们对这个新文档进行分类。我们不知道如何做到这一点,但是:
All of the data we have been working with has been classified manually, both the training and test sets...
however the data we will be getting from the professor will be UNclassified... How can we
reevaluate our model on the unclassified data if Weka requires that the attribute information must
be the same as the set used to form the model and the test set we are evaluating against?
谢谢你的帮助!
完成这些任务的最简单方法是使用过滤器分类器
。这种分类器集成了过滤器
和分类器
,因此您可以将StringToOrdVector
过滤器与您喜欢的分类器连接(J48
,NaiveBayes
,无论什么),并且您将始终保留原始训练集(未处理的文本),通过使用StringToWordVector
过滤器导出的人声,将分类器应用于新推文(未处理)。
您可以在“WEKA中文本挖掘的命令行函数”中的命令行中,以及通过“使用WEKA的Java中的简单文本分类器”中的程序来了解如何实现这一点。
我们看了很多这样的例子,但到目前为止没有运气。我想对自由文本进行分类。 配置文本分类器。使用StringToWordVector和LibSVM筛选分类器 训练分类器(添加大量文档,训练过滤文本) 序列化Filtered分类器到磁盘,退出应用程序 那以后吧 加载序列化的Filtered分类器 分类东西! 当我试图从磁盘中读取并分类东西时,它就可以了。所有文档和示例都显示了正在同时构建的训练列表和测试
在weka中。分类器。Evaluation有一个方法,它输出如下所示的混淆矩阵。 我注意到,这个输出中的类是从作为
我有以下来自weka项目的结果,我在理解它们的含义方面有一些问题。weka结果我知道正确分类实例的百分比通常称为准确性或样本准确性,但我不明白这意味着什么以及它向我展示了什么。我可以从中获得什么信息?正确分类的实例和不正确的实例是什么?同样在混淆矩阵上,我知道四个数字的总和是我给程序的数据的数量,但为什么在这样的网格中有四个数字。您可以提供的任何信息都会很有帮助,谢谢。
我试图在一个有32个属性的数据集上对分类机器学习算法进行数据建模,最后一列是目标类。我将属性数从32改进为6,我觉得这对我的分类模型更有用。 我尝试执行J48和一些增量分类算法。我期望输出结构包括混淆矩阵、更正和分类错误的实例、kappa值。 但是我的结果没有给出任何关于正确和错误分类实例的信息。此外,它也没有预测混淆矩阵和Kappa值。我收到的只是这样: ===总结=== 相关系数0.9482
如何从输出到多个文件? 每个条目中的关键字是文件名。groupByKey转换给了我,但是我如何将它们写入多个文件呢? 例如,给定以下输入 我想输出两个文件
问题内容: 我需要一种方法来干扰编写xsl结果文档,以避免将它们写入文件系统。现在我的模板正在写到一个临时目录,然后我压缩该目录。我想用这种方式写到文件系统。我正在使用撒克逊处理器。可以使用仅使用标准Java库的解决方案。任何建议表示赞赏。 编辑: 我发现了.net saxon api的此类http://www.saxonica.com/documentation/dotnetdoc/Saxon/