当前位置: 首页 > 面试题库 >

NLTK WordNet Lemmatizer:难道它不能使单词的所有词形变化吗?

周意智
2023-03-14
问题内容

我将NLTK WordNet
Lemmatizer用于词性标记项目,方法是首先将训练语料库中的每个单词修改为其词干(就地修改),然后仅对新语料库进行训练。但是,我发现lemmatizer不能正常运行。

例如,单词loves被复词化为love正确的单词,但是即使在复词之后该词loving仍然保留loving。这loving就像句子“我爱它”。

难道不是love单词的词干吗loving?类似地,在残词化之后,许多其他“ ing”形式仍然保留。这是正确的行为吗?

还有其他一些准确的词条修饰词吗?(不需要在NLTK中)在确定单词词干时,是否有形态分析仪或词义分析程序也考虑到单词的词性标签?例如,如果将单词用作动词,则该单词killingkill作为killing词干,但killing如果将其用作名词,则该单词应作为词干(如the killing was done by xyz)。


问题答案:

WordNet lemmatizer 确实 考虑了POS标签,但是并不能神奇地确定它:

>>> nltk.stem.WordNetLemmatizer().lemmatize('loving')
'loving'
>>> nltk.stem.WordNetLemmatizer().lemmatize('loving', 'v')
u'love'

没有POS标签,它将假定您提供的所有内容都是一个名词。因此,这里认为您正在为它传递名词“爱”(如“甜爱”中的一样)。



 类似资料:
  • 本文向大家介绍JS实现自动阅读单词(有道单词本添加功能),包括了JS实现自动阅读单词(有道单词本添加功能)的使用技巧和注意事项,需要的朋友参考一下 个人比较习惯使用有道,使用了一段时间,背单词的时候很不方便 而有道单词客户Duan没有自动阅读的功能, 本文用强大的js实现了简单的自动下一个单词的功能, 方法: 第一步打开有道路径下的"\Dict\6.3.69.8341\resultui\js\wo

  • 问题内容: 什么时候使用每个? 另外… NLTK词素化是否取决于词性?如果不是,它会更准确吗? 问题答案: 简短而密集:http : //nlp.stanford.edu/IR-book/html/htmledition/stemming- and-lemmatization-1.html 词干和词根化的目的都是将单词的屈折形式和有时与派生相关的形式减少为通用的基本形式。 但是,这两个词的风格不同

  • 本文向大家介绍使用Python从有道词典网页获取单词翻译,包括了使用Python从有道词典网页获取单词翻译的使用技巧和注意事项,需要的朋友参考一下 从有道词典网页获取某单词的中文解释。 再给大家分享一个命令行版的 以上就是本文的所有内容了,希望大家能够喜欢

  • 我有一个变量,它是由逗号分隔的单词列表,如下所示: 单词列表可以包含比上述示例更多或更少的单词。 如何随机化以获得这样的东西: word1、word5、word2、word3、word4 或 word4、word5、word3、word1、word2

  • 使用正则表达式匹配表达式 为什么这两个示例匹配如下(突出显示): c# < code>a #b #c #d 具体来说,为什么第一个字符串不匹配包含最后一个#之前的所有内容? 由于单词边界(\b)是零宽度匹配,可以在单词字符(\w)和非单词字符(\ w)之间匹配,或者在单词字符和字符串的开始或结束之间匹配,我不确定以非单词字符结束表达式会如何影响匹配。

  • 问题内容: 我现在有一个wordnet中所有名词的列表,我只想保留车辆中的单词,其余的删除。我该怎么做?下面是我要制作的伪代码,但我不知道如何使它工作 问题答案: 这会给你从每一个同义词集这是一个所有独特的词下义词的名词“车辆”(第一感觉)的。