当前位置: 首页 > 面试题库 >

词形化与词干的区别是什么?

卫梓
2023-03-14
问题内容

什么时候使用每个?

另外… NLTK词素化是否取决于词性?如果不是,它会更准确吗?


问题答案:

简短而密集:http : //nlp.stanford.edu/IR-book/html/htmledition/stemming-
and-lemmatization-1.html

词干和词根化的目的都是将单词的屈折形式和有时与派生相关的形式减少为通用的基本形式。

但是,这两个词的风格不同。词干通常是指粗略的启发式过程,该过程会砍掉单词的结尾,以期在大多数时间正确实现此目标,并且通常包括删除派生词缀。词法化通常是指使用单词的词汇和词法分析来正确处理事情,通常旨在仅去除词尾变化并返回单词的基数或字典形式,这被称为引理。

从NLTK文档:

引词化和词干化是规范化的特殊情况。他们为一组相关的单词形式确定规范的代表。



 类似资料:
  • 问题内容: 在Java中是否有任何可阻止的库! 问题答案: 在其网站上有Porter的词干提取器的实现。该代码不是Java风格的代码,但是它可以实现预期的功能,而且它只是一个类。

  • 自然语言处理(NLP),尤其是英语,已经发展到这样一个阶段,如果存在“完美”的词干分析器,词干分析将成为一项古老的技术。这是因为词干分析器将单词/符号的表面形式改变为一些无意义的词干。 然后,由于不同的非线性规划任务需要不同级别的柠檬化,因此“完美”柠檬化器的定义再次受到质疑。E、 g.在动词/名词/形容词形式之间转换单词。 词干分析器 柠檬酸酯 > 所以问题是,英语词干在今天有用吗?因为我们有过

  • 问题内容: 我正在使用elasticsearch 1.1.2。 我在可搜索字段上使用具有不同权重的多重匹配查询。 例: {“ multi_match”:{“ query”:“这是一个测试”,“ fields”:[“ title ^ 3”,“ description ^ 2”,“ body”]}} 因此,在我的示例中,标题的重要性是正文的三倍。 我想根据找到的匹配项为每个字段自定义权重。 假设我搜索

  • 本文向大家介绍Python自然语言处理之词干,词形与最大匹配算法代码详解,包括了Python自然语言处理之词干,词形与最大匹配算法代码详解的使用技巧和注意事项,需要的朋友参考一下 本文主要对词干提取及词形还原以及最大匹配算法进行了介绍和代码示例,Python实现,下面我们一起看看具体内容。 自然语言处理中一个很重要的操作就是所谓的stemming和lemmatization,二者非常类似。它们是词

  • 我有一个用法,我想纠正单词。我有一套正确和不正确的单词[拼写错误]。我用所有的话填充了trie。我对每个词都有正确和不正确的版本。 如果我得到一个“A”字来更正, --我在trie中搜索它。如果trie有这个词,我想把这个词和这个词的正确版本联系起来。 解决方案:我可以在Trie中错误单词的最后一个节点设置单词的正确版本[“A1”]。并可将其解析为“A1”。 但是我必须在最后一个节点存储每个单词的

  • 问题内容: 我有未分析字符串字段的文档(由映射强制执行或全局设置)。我试图了解两者之间的实际区别是什么 和 我在术语查询的文档中看到,分析字符串时有区别(这不是我的情况)。 有理由使用vs 吗? 问题答案: 在查询中,不分析搜索到的术语(即),并且将其与倒排索引中存在的术语完全匹配。 在查询中,首先分析搜索到的术语(即),然后将其与倒排索引中存在的术语进行匹配。 在你的情况下,由于是在映射,你的第