当前位置: 首页 > 面试题库 >

Java中的词干库

齐才艺
2023-03-14
问题内容

在Java中是否有任何可阻止的库!


问题答案:

在其网站上有Porter的词干提取器的实现。该代码不是Java风格的代码,但是它可以实现预期的功能,而且它只是一个类。



 类似资料:
  • 问题内容: 我正在寻找一个类或方法,该类或方法需要一个长字符串(包含数百个单词),并进行标记化,删除停用词和词干,以用于IR系统。 例如: “大肥猫,对袋鼠说’我认识的最有趣的家伙’。” 分词器将删除标点符号并返回一个单词 停用词删除器会删除“ the”,“ to”等词 词干会减少每个单词的“词根”,例如“最有趣”会变得很有趣 提前谢谢了。 问题答案: AFAIK Lucene可以做您想要的。用和

  • 问题内容: 什么时候使用每个? 另外… NLTK词素化是否取决于词性?如果不是,它会更准确吗? 问题答案: 简短而密集:http : //nlp.stanford.edu/IR-book/html/htmledition/stemming- and-lemmatization-1.html 词干和词根化的目的都是将单词的屈折形式和有时与派生相关的形式减少为通用的基本形式。 但是,这两个词的风格不同

  • 问题内容: 我正在使用elasticsearch 1.1.2。 我在可搜索字段上使用具有不同权重的多重匹配查询。 例: {“ multi_match”:{“ query”:“这是一个测试”,“ fields”:[“ title ^ 3”,“ description ^ 2”,“ body”]}} 因此,在我的示例中,标题的重要性是正文的三倍。 我想根据找到的匹配项为每个字段自定义权重。 假设我搜索

  • 本文向大家介绍在Python中使用NLTK库实现对词干的提取的教程,包括了在Python中使用NLTK库实现对词干的提取的教程的使用技巧和注意事项,需要的朋友参考一下 什么是词干提取? 在语言形态学和信息检索里,词干提取是去除词缀得到词根的过程─—得到单词最一般的写法。对于一个词的形态词根,词干并不需要完全相同;相关的词映射到同一个词干一般能得到满意的结果,即使该词干不是词的有效根。从1968年开

  • 我创建了一个数据框,其中包含要被词干化的句子。我想用雪球机来获得更高的分类算法精度。我该如何实现这一点?

  • 自然语言处理(NLP),尤其是英语,已经发展到这样一个阶段,如果存在“完美”的词干分析器,词干分析将成为一项古老的技术。这是因为词干分析器将单词/符号的表面形式改变为一些无意义的词干。 然后,由于不同的非线性规划任务需要不同级别的柠檬化,因此“完美”柠檬化器的定义再次受到质疑。E、 g.在动词/名词/形容词形式之间转换单词。 词干分析器 柠檬酸酯 > 所以问题是,英语词干在今天有用吗?因为我们有过