当前位置: 首页 > 面试题库 >

Java中Tf Idf的任何教程或代码

胥玮
2023-03-14
问题内容

我正在寻找一个可以计算tf-idf计算的简单Java类。我想对2个文档进行相似性测试。我发现有很多使用tf-idf类的BIG
API。我不想使用一个大的jar文件,只是为了进行简单的测试。请帮忙
!或者至少有人可以告诉我如何找到TF?和IDF?我将计算结果:)或如果您可以告诉我一些不错的Java教程。请不要告诉我寻找Google,我已经做了3天了,找不到任何东西:(请也不要把我引到Lucene
:(


问题答案:

术语频率是术语在特定文档中出现的次数的平方根。

反向文档频率是(对数(文档总数除以包含该术语的文档数量))加一,以防该术语出现零次-如果确实如此,显然不要尝试除以零。

如果无法从该答案中得出答案,则每个文档每个术语有一个TF,每个术语有一个IDF。

然后TF-IDF(term,document)= TF(term,document)* IDF(term)

最后,您使用向量空间模型比较文档,其中每个术语是一个新维度,指向该维度的向量部分的“长度”是TF-
IDF计算。每个文档都是一个向量,因此请计算两个向量,然后计算它们之间的距离。

因此,要在Java中执行此操作,请使用FileReader或其他内容一次读取一行文件,然后在空格或任何其他要使用的分隔符上进行分割-
每个单词都是一个术语。计算每个术语在每个文件中出现的次数以及每个术语在其中出现的文件数。然后,您便拥有了进行上述计算所需的一切。

由于没有其他事情可做,因此我查找了矢量距离公式。干得好:

D=sqrt((x2-x1)^2+(y2-y1)^2+...+(n2-n1)^2)

为此,x1是文档1中术语x的TF-IDF。

编辑:针对您对如何计算文档中单词的数量的回答:

  1. 与阅读器逐行阅读文件,例如new BufferedReader(new FileReader(filename))-您可以调用BufferedReader.readLine()while循环,每次检查是否为null。
  2. 对于每一行,调用line.split("\\s")-将在空白处分割行并为您提供所有单词的数组
  3. 对于每个单词,在当前文档的单词计数中加1。这可以使用来完成HashMap

现在,在为每个文档计算D之后,您将获得X值,其中X是文档数。要相互比较所有文档,只需要进行X ^
2比较-10,000的时间就不会特别长。请记住,如果两个文档的D值之差的绝对值较小,则它们会更相似。因此,您可以计算每对文档的D之间的差异,并将其存储在优先级队列或其他排序的结构中,以便最相似的文档冒泡到顶部。合理?



 类似资料:
  • 问题内容: REST的每一篇教程或解释都太复杂太过复杂-在对CRUD进行了初步解释并假定通过SOAP简化之后,学习曲线就变得如此之快。人们为什么不能再写像样的教程了! 我正在查看Restlet- 它不是最好的,本教程中缺少某些内容,语言/语法有点混乱和不清楚。我花了几个小时才解开他们的“第一步”教程(在另一个Java程序员的帮助下!) RESTlet教程注释 总体而言,我不确定该教程的目标读者是谁

  • 问题内容: 我有一个大约有800万条新闻文章的语料库,我需要以稀疏矩阵的形式获取它们的TFIDF表示形式。我已经能够使用scikit-learn来实现相对较少的样本数量,但是我相信它不能用于如此庞大的数据集,因为它首先将输入矩阵加载到内存中,这是一个昂贵的过程。 谁知道,对于大型数据集,提取TFIDF向量的最佳方法是什么? 问题答案: Gensim具有高效的tf-idf模型,不需要一次将所有内容存

  • 本文向大家介绍利用RJB在Ruby on Rails中使用Java代码的教程,包括了利用RJB在Ruby on Rails中使用Java代码的教程的使用技巧和注意事项,需要的朋友参考一下 开始之前 关于本教程 Ruby on Rails (Rails) 是用 Ruby 编写的一个 full-stack Web 应用程序框架,而 Ruby 是一种功能丰富的、免费的、可扩展的、可移植的、面向对象的脚本

  • 本文向大家介绍Ruby中的block代码块学习教程,包括了Ruby中的block代码块学习教程的使用技巧和注意事项,需要的朋友参考一下 1、什么是代码块 在Ruby中,{}或do...end之间的代码是一个代码块。代码块只能出现在一个方法的后边,它紧接在方法最后一个参数的同一行上,由yield关键字调用。例如: 块变量:以yield关键字调用block也可以传递参数,block中竖线(|)之间给出

  • Java 9 是最受期待的,是 Java 编程语言的主要特性版本。 这是一个介绍性教程,以简单直观的方式解释了 Java 9 的基本到高级功能及其用法。

  • 以最新的 JavaScript 标准为基准。通过简单但足够详细的内容,为你讲解从基础到高阶的 JavaScript 相关知识。