当前位置: 首页 > 面试题库 >

NLTK是否已实施TF-IDF?

从阎宝
2023-03-14
问题内容

有在TF-IDF的实现scikit-learngensim

有简单的实现Python中的N-Gram,tf-
idf和余弦相似性的简单实现

为了避免重新发明轮子,

  • NLTK中真的没有TF-IDF吗?
  • 是否有可用于在NLTK中实现TF-IDF的子包? 如果有怎么办?

在该博客文章中,NLTK没有它。 真的吗?
http://www.bogotobogo.com/python/NLTK/tf_idf_with_scikit-
learn_NLTK.php


问题答案:

NLTK TextCollection类具有一种用于计算术语tf-
idf的方法。文档在这里,源在这里。但是,它说“加载可能很慢”,因此使用scikit-
learn可能更可取。



 类似资料:
  • 问题内容: 我只找到了用于nodejs的oauth客户端库。有人知道我在哪里可以找到服务器实现吗? 谢谢你, 问题答案: 我刚刚发布了OAuthorize,它是用于实现OAuth 1.0a服务器的一套中间件。它是高度模块化的,可让您对其进行调整以满足您的要求。它使用Passport -http-oauth与Passport无缝集成以进行身份验证,从而使用访问令牌来保护API。 更新: OAuth2

  • 我试着检测一个句子是问句还是陈述。除了在句末找一个问号,有没有另外一种方法可以检测到这一点呢?我正在处理Twitter的帖子,人们并不一定遵循良好的做法,比如Twitter上的问号。 如果nltk现在起作用,对其他库的引用也是可以的。

  • 问题内容: 我尝试实现冒泡排序,但是不确定它是否正确。如果您可以看一下它,并且它是气泡式的,并且可以通过更好的方式完成,请不要害羞。这是代码: 问题答案: 这是冒泡排序的正常实现,似乎还可以。可以进行几种优化,但是总体思路是相同的。这里有一些想法: 如果在内循环中未执行任何交换时,外循环有一个迭代,则中断,无用继续 在外循环的每次迭代中,交换内循环的方向-从左至右执行一次,然后从右至左执行一次(这

  • 问题内容: 我在对此答案的评论中阅读了有关过时的计划(抱歉,没有参考)的其他许多问题。我真的希望不要,因为我将它用作Java中调度事情的简便方法(而且效果很好)。但是,如果过时了,我会去别处。 但是,快速浏览 1.6版 的API文档并没有说明它已被弃用。Sun的“ 不推荐使用的清单”中甚至都没有提到它。 是否正式弃用 *,如果是,我应该使用什么代替? 另一方面, 如果不弃用它,* 人们是否可以停止

  • 问题内容: 您已经意识到了一个古老的问题:包含浮动元素的容器不会自动扩展其高度以围封其子级。 解决此问题的一种方法是“clearfix”,它添加了许多CSS规则以确保容器正确延伸。 但是,仅提供容器似乎同样有效,并且具有相同的浏览器兼容性。 这是否意味着不建议使用“ clearfix”?使用它还有什么优势吗? 这里有一个非常相似的问题:clearfixhack和overflow:hidden与ov

  • TF

    在将文本分词并向量化后,我们可以得到词汇表中每个词在各个文本中形成的词向量,我们将下面4个短文本做了词频统计: corpus=["I come to China to travel", "This is a car polupar in China", "I love tea and Apple ", "The work is to write