当前位置：首页 > 面试题库 >

文本文件的信息增益计算？

督嘉言

2023-03-14

问题内容：

我正在研究 “使用信息获取，PCA和遗传算法的文本分类”， 但是在对文档执行 预处理
（词干，停用词删除，TFIDF）后，m困惑了如何继续进行信息获取部分。

我的 out文件 包含 word， 并且有 TFIDF 值。

像 WORD-TFIDF VALUE

在一起（单词）-0.235（tfidf值）

come（word）-0.2548（tfidf值）

当使用weka进行信息获取（“ InfoGainAttributeEval.java ”）时，它需要 .arff 文件格式作为输入。

是否有将文本文件转换为 .arff 格式的文件。还是除weka之外的其他获取信息的方式？

还有其他开放源代码来计算文档的信息增益吗？

问题答案：

我找到了答案。在此，我们必须生成 arff 文件。

在.arff文件中

@RELATION部分 将包含经过 预处理 后整个文档中存在的所有单词。每个单词都将是实数类型，因为 tfidf值
是实数。

@data节* 将包含在 预处理 期间计算的 tfidf 值。例如，第一个将包含 tfidf值的
第一个文档中出现的所有单词，最后将文档分类。
***

@RELATION filename
@ATTRIBUTE word1 real
@ATTRIBUTE word2 real
@ATTRIBUTE word3 real
.
.
.
.so on
@ATTRIBUTE class {cacm,cisi,cran,med}

@data
0.5545479562,0.27,0.554544479562,0.4479562,cacm
0.5545479562,0.27,0.554544479562,0.4479562,cacm
0.55454479562,0.1619617,0.579562,0.5542,cisi
0.5545479562,0.27,0.554544479562,0.4479562,cisi
0.0,0.2396113617,0.44479562,0.2,cran
0.5545479562,0.27,0.554544479562,0.4479562,carn
0.5545177444479562,0.26196113617,0.0,0.0,med
0.5545479562,0.27,0.554544479562,0.4479562,med

生成此文件后，您可以将此文件作为输入InfoGainAttributeEval.java。这对我有用。

类似资料：

信息增益

本文向大家介绍信息增益相关面试题，主要包含被问及信息增益时的应答技巧和注意事项，需要的朋友参考一下特征A对训练数据集D的信息增益g(D,A) = H(D) - H(D|A) 由于特征A而使得对数据集D的分类的不确定性减少的程度。信息增益大的特征具有更强的分类能力。
添加标注文本信息（文本）

接口说明为当前位置设置描述信息、备注信息等，以更好的了解当前位置的基本概况，可以调用该接口来设置相关的信息说明如需调用，请访问开发者文档来查看详细的接口使用说明该接口仅开放给已获取SDK的开发者 API地址 POST /api/marker/1.0.0/addTabTxt 是否需要登录是请求字段说明参数类型请求类型是否必须说明 mId string form 是标注ID
更新标注文本信息（文本）

接口说明如果当前位置信息不符合要求或者需要重新定义，可以调用该接口来更新相关的内容信息如需调用，请访问开发者文档来查看详细的接口使用说明该接口仅开放给已获取SDK的开发者 API地址 POST /api/marker/1.0.0/updateTabTxt 是否需要登录是请求字段说明参数类型请求类型是否必须说明 id string form 是标注TAB ID title
7. 从文本提取信息

对于任何给定的问题，很可能已经有人把答案写在某个地方了。以电子形式提供的自然语言文本的数量真的惊人，并且与日俱增。然而，自然语言的复杂性使访问这些文本中的信息非常困难。NLP目前的技术水平仍然有很长的路要走才能够从不受限制的文本对意义建立通用的表示。如果我们不是集中我们的精力在问题或“实体关系”的有限集合，例如：“不同的设施位于何处”或“谁被什么公司雇用”上，我们就能取得重大进展。本章的目的是要回
阅读文件夹并给出文件夹中所有文件的详细信息[副本]

我得到了一个程序，它应该读取所有的文件存在于一个给定的文件夹，并给出文件的细节，如文件名，文件大小，创建日期和时间，文件位置作为输出。如果在给定的文件夹中有任何子文件夹，那么它也应该geiving该子文件夹中存在的文件的详细信息。
文档信息

info跟在根元素之后，用来放置一些文件信息 <info> <title>文章</title> <author>作者</author> <address>地址</address> <copyright><year>2008</year><holder>所有者</holder></copyright> </info>

相关阅读

有效地计算文本文件的行数。（200mb +）使用Java计算文本文件中的行数 Python决策树之基于信息增益的特征选择示例使用Java计算文本文件中的字符数使用Java计算文本文件中的段落数

相关文章

Java统计商品信息 Linux列出进程调用或打开的文件信息（lsof命令）Matlab .m脚本文件 Go语言纯文本文件的读写操作 C++文本文件读写操作详解

相关问答

我如何从一个本地文本文件中获取信息而不浏览？如何用Java读取长文本中的信息从文本文件读取数据以计算并将数据写入另一个文本文件 Django设计：存储和检索文本文件来自用户id的discord.js配置文件信息

相关工具

Marlin 中文版本 LCD JOE文本编辑器解压TexturePacker生成的文件邮件发送Document文件大块头微信消息

相关文档

IPC 进程间通信中文文档 Python 文本处理 51LA 统计帮助文档 Element UI 组件中文文档小米函数计算开发文档