nltk里有个库可以很方便的还原单词的root形式,调用方法如下:
import nltk
lem = nltk.stem.wordnet.WordNetLemmatizer()
name = lem.lemmatize("dogs") # convert the word into root word
但是初次调用时可能遇见以下问题:
zipfile.BadZipFile: File is not a zip file
import nltk
nltk.download("wordnet")
nltk.download("omw-1.4")
安装好后就不会遇见这个问题了!
2. 如果已经安装好wordnet了还报上述问题,可能是ntlk的数据在下载时不完整导致的,可以进入默认下载地址查看:/home/[user_name]/nltk_data/