NLTK单词语料库没有短语“好”,“好”,“好”吗?
> from nltk.corpus import words
> words.words().__contains__("check")
> True
> words.words().__contains__("okay")
> False
> len(words.words())
> 236736
有什么想法吗?
from nltk.corpus import words
from nltk.corpus import wordnet
manywords = words.words() + wordnet.words()
在文档中,nltk.corpus.words
单词是“
http://en.wikipedia.org/wiki/Words_(Unix)
在Unix中,您可以执行以下操作:
ls /usr/share/dict/
并阅读自述文件:
$ cd /usr/share/dict/
/usr/share/dict$ cat README
# @(#)README 8.1 (Berkeley) 6/5/93
# $FreeBSD$
WEB ---- (introduction provided by jaw@riacs) -------------------------
Welcome to web2 (Webster's Second International) all 234,936 words worth.
The 1934 copyright has lapsed, according to the supplier. The
supplemental 'web2a' list contains hyphenated terms as well as assorted
noun and adverbial phrases. The wordlist makes a dandy 'grep' victim.
-- James A. Woods {ihnp4,hplabs}!ames!jaw (or jaw@riacs)
Country names are stored in the file /usr/share/misc/iso3166.
FreeBSD Maintenance Notes ---------------------------------------------
Note that FreeBSD is not maintaining a historical document, we're
maintaining a list of current [American] English spellings.
A few words have been removed because their spellings have depreciated.
This list of words includes:
corelation (and its derivatives) "correlation" is the preferred spelling
freen typographical error in original file
freend archaic spelling no longer in use;
masks common typo in modern text
--
A list of technical terms has been added in the file 'freebsd'. This
word list contains FreeBSD/Unix lexicon that is used by the system
documentation. It makes a great ispell(1) personal dictionary to
supplement the standard English language dictionary.
由于它是 234,936 的固定列表,因此该列表中 肯定 有不存在的单词。
如果需要扩展单词列表,则可以使用WordNet中的单词将单词添加到列表中nltk.corpus.wordnet.words()
。
最有可能的是,您需要的是足够大的文本语料库,例如Wikipedia dump,然后将其标记化并提取所有唯一的单词。
问题内容: 我认为标题的答案通常是去阅读文档,但是我遍历了NLTK书,但没有给出答案。我是Python的新手。 我有很多文件,我希望能够使用NLTK为语料库提供的语料库功能。 我已经尝试过,但是我无法超越: 如何使用punkt分割句子?我尝试使用punkt函数,但punkt函数无法读取类? 您还可以引导我介绍如何将分段数据写入文本文件吗? 问题答案: 我认为,至少在您的输入语言是英语的情况下,已经
问题内容: 我认为标题的答案通常是去阅读文档,但是我浏览了NLTK书,但没有给出答案。我是Python的新手。 我有很多文件,我希望能够使用NLTK为语料库提供的语料库功能。 我已经尝试过,但是我无法超越: 如何使用分割句子?我尝试使用函数,但函数无法读取类? 你还可以引导我介绍如何将分段数据写入文本文件吗? 问题答案: 我认为,至少在你的输入语言是英语的情况下,已经使用punkt标记器对输入进行
问题内容: 我正在尝试学习如何使用NLTK标记西班牙语单词。 从nltk的书中,使用它们的示例标记英语单词非常容易。因为我是nltk和所有语言处理的新手,所以我对如何进行程序感到很困惑。 我已经下载了语料库。有没有办法指定一个语料库。我看了看文档,没有发现任何建议。我觉得我缺少一些关键概念。我是否需要在cess_esp语料库中手动标记文本中的单词?(通过手动,我的意思是标记我的情感,然后再次运行语
第二部分很简单,它用命令完成。这是我不知道如何接近的任务的第一部分。 欢迎所有的建议。我还特别欢迎提出建议,提出替代性的、更有效的办法,以取代我心目中的办法。 更新:
问题内容: 我遇到了一个与正则表达式和Python有关的问题。 我想创建一个自定义分类语料库,并在其上训练一个朴素贝叶斯分类器。我的问题如下:我想有两个类别,“ pos”和“ neg”。正文件全部位于一个目录中,而负文件均位于单独的目录中。 如何使用加载并标记pos目录中的所有肯定文件,并对否定文件执行相同的操作? 注意:设置与语料库()完全相同。 问题答案: 这是我的问题的答案。由于我一直在考虑
我正在尝试使用自定义NE(命名实体)字典在印度训练NER模型以进行分块。我分别引用NLTK和Stanford NER: NLTK 我找到了NEChunkParser能够在自定义语料库上进行训练。然而,文档或源代码注释中没有指定训练语料库的格式。 在哪里可以找到NLTK中NER的自定义语料库指南? 根据这个问题,斯坦福大学NER的FAQ给出了如何训练定制NER模型的方向。 主要问题之一是默认的斯坦福