当前位置: 首页 > 知识库问答 >
问题:

SVM如何计算文档分类中测试文档的tf-df?

施鸿
2023-03-14

在我的SVM中,我使用tf-idf对文档进行特征提取。这些tf-idf是根据全部培训文件计算的。

现在,当我得到一个我想要分类的测试文档时,我如何为它生成向量?

我在计算tf-idf之前使用了词干分析。我也可以在测试文档上执行。我count_of_words火车文件。

为了计算测试文档的tf idf,我应该增加训练文档中的单词计数,还是直接使用它?

共有1个答案

宗政楚
2023-03-14

计算方法与培训期间相同,但:根据培训文件使用idf,并根据测试文件使用tf。如果有很多新文档,只需不时更新培训数据并重新培训模型。

 类似资料:
  • 我有一个word文件,我想数一下里面有多少页。 已使用Docx4Java创建该文件。 以前有人这么做过吗? 谢谢!

  • 问题内容: 我有这样的台词,我想知道我实际上有几行… 有没有一种方法可以使用linux命令对它们进行计数? 问题答案: 用途: 这将输出行数: 或者,要从结果中省略,请使用: 您还可以通过管道将数据发送到:

  • 主要内容:为什么需要文档?,使用文档的好处测试文档是在测试软件应用程序期间或之前创建的工件的文档。文档反映了流程对客户,个人和组织的重要性。 包含所有文档的项目具有较高的成熟度。详尽的文档可以节省组织的时间和财富。 为什么需要文档? 如果测试或开发团队获得的软件无法正常工作并由其他人开发,那么为了找到错误,团队将首先需要一份文档。如果文档可用,那么团队将通过检查文档快速找出错误原因。但是,如果文件不可用,那么测试人员需要再次进行黑盒子和白

  • 如果你经常阅读Python的官方文档,可以看到很多文档都有示例代码。比如re模块就带了很多示例代码: >>> import re >>> m = re.search('(?<=abc)def', 'abcdef') >>> m.group(0) 'def' 可以把这些示例代码在Python的交互式环境下输入并执行,结果与文档中的示例代码显示的一致。 这些代码与其他说明可以写在注释中,然后,由一些

  • 如果你经常阅读Python的官方文档,可以看到很多文档都有示例代码。比如re模块就带了很多示例代码: >>> import re >>> m = re.search('(?<=abc)def', 'abcdef') >>> m.group(0) 'def' 可以把这些示例代码在Python的交互式环境下输入并执行,结果与文档中的示例代码显示的一致。 这些代码与其他说明可以写在注释中,然后,由一些

  • 问题内容: 我是相当新的elasticsearch,使用6.5版。我的数据库包含网站页面及其内容,如下所示: 我已经能够执行一个简单的查询,该查询返回所有内容中包含“汽车”一词的文档(使用Python): 结果看起来像这样: “ _id”指的是一个域,所以我基本上回来了: abc.com def.com jkl.com 但我现在想知道如何往往是搜索关键词(“汽车”)出现 在 每个文档,如: abc