当前位置: 首页 > 面试题库 >

文本文件的信息增益计算?

督嘉言
2023-03-14
问题内容

我正在研究 “使用信息获取,PCA和遗传算法的文本分类”, 但是在对文档执行 预处理
(词干,停用词删除,TFIDF)后,m困惑了如何继续进行信息获取部分。

我的 out文件 包含 word, 并且有 TFIDF 值。

WORD-TFIDF VALUE

在一起(单词)-0.235(tfidf值)

come(word)-0.2548(tfidf值)

当使用weka进行信息获取(“ InfoGainAttributeEval.java ”)时,它需要 .arff 文件格式作为输入。

是否有将 文本 文件转换为 .arff 格式的文件。还是除weka之外的其他获取信息的方式?

还有其他开放源代码来计算文档的信息增益吗?


问题答案:

我找到了答案。在此,我们必须生成 arff 文件。

在.arff文件中

@RELATION部分 将包含经过 预处理 后整个文档中存在的所有单词。每个单词都将是 实数 类型,因为 tfidf值
是实数。

@data节* 将包含在 预处理 期间计算的 tfidf 值。例如,第一个将包含 tfidf值的
第一个文档中出现的所有单词,最后将文档分类。
***

@RELATION filename
@ATTRIBUTE word1 real
@ATTRIBUTE word2 real
@ATTRIBUTE word3 real
.
.
.
.so on
@ATTRIBUTE class {cacm,cisi,cran,med}

@data
0.5545479562,0.27,0.554544479562,0.4479562,cacm
0.5545479562,0.27,0.554544479562,0.4479562,cacm
0.55454479562,0.1619617,0.579562,0.5542,cisi
0.5545479562,0.27,0.554544479562,0.4479562,cisi
0.0,0.2396113617,0.44479562,0.2,cran
0.5545479562,0.27,0.554544479562,0.4479562,carn
0.5545177444479562,0.26196113617,0.0,0.0,med
0.5545479562,0.27,0.554544479562,0.4479562,med

生成此文件后,您可以将此文件作为输入InfoGainAttributeEval.java。这对我有用。



 类似资料:
  • 本文向大家介绍信息增益相关面试题,主要包含被问及信息增益时的应答技巧和注意事项,需要的朋友参考一下 特征A对训练数据集D的信息增益g(D,A) = H(D) - H(D|A) 由于特征A而使得对数据集D的分类的不确定性减少的程度。信息增益大的特征具有更强的分类能力。

  • 接口说明 为当前位置设置描述信息、备注信息等,以更好的了解当前位置的基本概况,可以调用该接口来设置相关的信息说明 如需调用,请访问 开发者文档 来查看详细的接口使用说明 该接口仅开放给已获取SDK的开发者 API地址 POST /api/marker/1.0.0/addTabTxt 是否需要登录 是 请求字段说明 参数 类型 请求类型 是否必须 说明 mId string form 是 标注ID

  • 接口说明 如果当前位置信息不符合要求或者需要重新定义,可以调用该接口来更新相关的内容信息 如需调用,请访问 开发者文档 来查看详细的接口使用说明 该接口仅开放给已获取SDK的开发者 API地址 POST /api/marker/1.0.0/updateTabTxt 是否需要登录 是 请求字段说明 参数 类型 请求类型 是否必须 说明 id string form 是 标注TAB ID title

  • 对于任何给定的问题,很可能已经有人把答案写在某个地方了。以电子形式提供的自然语言文本的数量真的惊人,并且与日俱增。然而,自然语言的复杂性使访问这些文本中的信息非常困难。NLP目前的技术水平仍然有很长的路要走才能够从不受限制的文本对意义建立通用的表示。如果我们不是集中我们的精力在问题或“实体关系”的有限集合,例如:“不同的设施位于何处”或“谁被什么公司雇用”上,我们就能取得重大进展。本章的目的是要回

  • info跟在根元素之后,用来放置一些文件信息 <info> <title>文章</title> <author>作者</author> <address>地址</address> <copyright><year>2008</year><holder>所有者</holder></copyright> </info>

  • 我得到了一个程序,它应该读取所有的文件存在于一个给定的文件夹,并给出文件的细节,如文件名,文件大小,创建日期和时间,文件位置作为输出。如果在给定的文件夹中有任何子文件夹,那么它也应该geiving该子文件夹中存在的文件的详细信息。