当前位置: 首页 > 知识库问答 >
问题:

Weka GUI-TF-IDF未计算-请帮助我完成学业

谢鸿
2023-03-14

我想在WEKA GUI中使用KNN算法和TF-IDF。首先,我在默认条件下运行该算法。其次,我在StringToWordVector过滤器中选择“IDFTransform”和“TFTransform”作为“true”并运行。
两个结果没有区别。

结果1:

Correctly Classified Instances        1346               91.3781 %

结果2:

Correctly Classified Instances        1346               91.3781 %

我的“.arff”文件如下:

@relation et9

@attribute 'alis' real
@attribute 'banka' real
...
@attribute 'urun' real
@attribute 'class' {yes, no}

@data
70,0,0,0,3,0,40,0,3,1,0,0,20,0,717,2,4,0,0,0,2,5,0,0,0,717,0,1,0,30,yes
22,0,0,63,158,0,1,0,7,0,10,0,4,0,57,0,0,0,0,204,0,0,2,2,0,530,0,0,6,0,yes
0,0,1,0,0,0,0,0,2,1,3,0,0,0,0,0,5,0,0,0,0,0,2,1,0,0,0,0,0,0,no
...


我知道StringToWordVector用于字符串。但是我想计算这个“. arff”文件的TF-IDF。我如何使用我当前的". arff"文件,并有KNN算法结果与TF-IDF?

(这是我的学术论文,请帮忙)

共有1个答案

傅穆冉
2023-03-14

根据Weka的留档,StringToWordVector过滤器将字符串属性转换为一组表示单词出现[...]的属性。因此,将此筛选器应用于不包含任何String属性的arff文件不会对数据集产生任何影响。

为了使用该过滤器,您需要准备一个包含字符串属性的arff文件,其中该属性的值是给定实例的文本。例如,如果每个实例代表一条推文,那么推文中的文本将是该字符串属性的值。有关在weka中使用文本的更多信息,请参见此处。

 类似资料:
  • TF-IDF TF-IDF(Term Frequency and Inverse Document Frequency),是一种用于信息检索与数据挖掘的常用加权技术。它的主要思想是:如果某个词或短语在一篇文章中出现的频率(term frequency)高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。 计算公式是TF * IDF 而这里的: scikit-lea

  • 问题内容: 有在TF-IDF的实现和。 有简单的实现Python中的N-Gram,tf- idf和余弦相似性的简单实现 为了避免重新发明轮子, NLTK中真的没有TF-IDF吗? 是否有可用于在NLTK中实现TF-IDF的子包? 如果有怎么办? 在该博客文章中,NLTK没有它。 真的吗? http://www.bogotobogo.com/python/NLTK/tf_idf_with_sciki

  • 我是用aws java lambda cloud watch实现log4j2的新手。我需要自定义日志而不是云监控日志。我上传了一个csv的大尺寸记录使用步骤功能。因此,内置的cloud watch会反复记录相同的内容。所以我计划在java lambda中添加log4j2。为此,我在pom中添加了以下依赖项。xml 然后在src/main/资源下添加log4j2.xml。log4j2.xml就像下面

  • 本文向大家介绍TF-IDF算法解析与Python实现方法详解,包括了TF-IDF算法解析与Python实现方法详解的使用技巧和注意事项,需要的朋友参考一下 TF-IDF(term frequency–inverse document frequency)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。比较容易理解的一个应用场景是当

  • 本文向大家介绍python TF-IDF算法实现文本关键词提取,包括了python TF-IDF算法实现文本关键词提取的使用技巧和注意事项,需要的朋友参考一下 TF(Term Frequency)词频,在文章中出现次数最多的词,然而文章中出现次数较多的词并不一定就是关键词,比如常见的对文章本身并没有多大意义的停用词。所以我们需要一个重要性调整系数来衡量一个词是不是常见词。该权重为IDF(Inver

  • Java 级转换器。如何开始编写此类代码? 我正在为我的Java课程做一个项目,那就是一个等级转换器。我正在寻找一些指针来开始编码这个叫做“等级”的类。我的说明之一是:使用一个名为“等级”的类来存储每个等级的数据。这个类应该包括这三个方法:公共无效setDigital(int号)公共int getDigital()公共String get的()等级类应该有两个构造函数。第一个应该接受任何参数,并将