当前位置: 首页 > 面试题库 >

令牌生成器,停止词删除,Java词干

彭鸿哲
2023-03-14
问题内容

我正在寻找一个类或方法,该类或方法需要一个长字符串(包含数百个单词),并进行标记化,删除停用词和词干,以用于IR系统。

例如:

“大肥猫,对袋鼠说’我认识的最有趣的家伙’。”

分词器将删除标点符号并返回一个ArrayList单词

停用词删除器会删除“ the”,“ to”等词

词干会减少每个单词的“词根”,例如“最有趣”会变得很有趣

提前谢谢了。


问题答案:

AFAIK
Lucene可以做您想要的。用StandardAnalyzerStopAnalyzer可以将停用词删除。与Lucene contrib- snowball(包括Snowball的工作)项目结合使用,您也可以执行词干。

但是对于词干,也可以考虑以下答案:产生实词的词干算法



 类似资料:
  • 我一直在用spaCy查找最常用的名词和noun_phrases 在寻找单个名词时,我可以成功地去掉标点符号并停止单词 然而,使用noun_chunks来确定短语会导致属性错误 spacy.tokens.span.Span对象没有属性 我理解的性质的消息但我不能为我的生活得到语法正确的地方存在的停止字在一个emmatiated字符串将排除从被附加到noun_phrases列表 不删除停止字的输出 [

  • 我使用的是Lucene最新版本5.2.1。在索引文档时,我希望停止词被删除,之后所有的词都应该保留到它的根词。 有EnglishAnalyzer可用,但词干设置不准确。还有StopAnalyzer可以删除停止字。 Lucene有什么分析器可以同时做这两件事吗? 并且我编写了一个自定义分析器,用于使用KSTEMFilter进行词干处理。如何在自定义分析器中使用现有的StopAnalyzer

  • 问题内容: 所以我基本上是在一个项目中,计算机从单词列表中提取一个单词,然后为用户弄乱它。只有一个问题:我不想一直在列表中写很多单词,所以我想知道是否有一种方法可以导入很多随机单词,所以即使我也不知道它是什么,并且那我也可以玩游戏吗?这是整个程序的编码,我只输入了6个字: 问题答案: 如果您重复执行此操作,我将在本地下载它并从本地文件中提取。* nix用户可以使用。 例: 从远程字典中提取 如果您

  • 谢谢你。

  • 本文向大家介绍在Python中使用NLTK删除停用词,包括了在Python中使用NLTK删除停用词的使用技巧和注意事项,需要的朋友参考一下 当计算机处理自然语言时,某些极端通用的单词似乎在帮助选择符合用户需求的文档方面几乎没有值,因此完全从词汇表中排除了。这些单词称为停用词。 例如,如果您输入的句子为- 停止单词删除后,您将获得输出- NLTK收集了这些停用词,我们可以将其从任何给定的句子中删除。

  • 问题内容: 是否有可以将and 命令组合在一起的命令?每次我要删除正在运行的容器时,都需要顺序执行2条命令,我想知道是否有组合的命令可以简化此过程。 问题答案: 您可以使用 : 即使容器仍在运行,它也会删除该容器。 https://docs.docker.com/engine/reference/commandline/rm/ 您也可以使用选项运行容器,停止后它将自动删除。 https://doc