第二部分很简单,它用命令corpus_name.sents()
完成。这是我不知道如何接近的任务的第一部分。
欢迎所有的建议。我还特别欢迎提出建议,提出替代性的、更有效的办法,以取代我心目中的办法。
更新:
(S (NP (DT the) (JJ little) (NN dog)) (VP (VBD barked)))
(S (NP-SBJ (-NONE- *-0))
(VP (TO to)
(VP (VB sell)
(NP (NP (PRP$#0 its) (NN TV) (NN station))
(NN advertising)
(NN representation)
(NN operation)
(CC and)
(NN program)
(NN production)
(NN unit))
你链接到的问题只是有点误导。实际上,该代码示例只读取一个文件,但nltk
的语料库阅读器界面是为读取大型文件集合而设计的。reader构造函数的必需参数是到语料库的基文件夹的路径和一个regexp(一个普通的,不是“glob”),该regexp匹配所有应该读入的文件名。所以只需通过添加适当的regexp来调整问题的答案。(如果语料库与BracketParsecorpusReader
默认值不匹配,还可以添加格式选项。)例如:
from nltk.corpus.reader import BracketParseCorpusReader
reader = BracketParseCorpusReader('path/to/bllip_87_89_wsj', r'.*/w\d_.*')
这将匹配任何子文件夹中名称以w
开头的任何文件。如果您碰巧有与此模式匹配但必须排除的文件(例如:w7_001.001-old
),您可以锐化上面的正则表达式。
您可以使用这个语料库阅读器,就像使用与NLTK一起分发的解析语料库一样。请注意,由于您有数百万个文件,因此应该避免构造语句列表(甚至是文件名列表)。Reader的方法返回“视图”,这是一种特殊的对象,允许您迭代并索引到结果中,而不必将整个结果列表加载到内存中。
问题内容: 我认为标题的答案通常是去阅读文档,但是我遍历了NLTK书,但没有给出答案。我是Python的新手。 我有很多文件,我希望能够使用NLTK为语料库提供的语料库功能。 我已经尝试过,但是我无法超越: 如何使用punkt分割句子?我尝试使用punkt函数,但punkt函数无法读取类? 您还可以引导我介绍如何将分段数据写入文本文件吗? 问题答案: 我认为,至少在您的输入语言是英语的情况下,已经
问题内容: NLTK单词语料库没有短语“好”,“好”,“好”吗? 有什么想法吗? 问题答案: 在长 在文档中,单词是“ http://en.wikipedia.org/wiki/Words_(Unix) 在Unix中,您可以执行以下操作: 并阅读自述文件: 由于它是 234,936 的固定列表,因此该列表中 肯定 有不存在的单词。 如果需要扩展单词列表,则可以使用WordNet中的单词将单词添加到
问题内容: 我认为标题的答案通常是去阅读文档,但是我浏览了NLTK书,但没有给出答案。我是Python的新手。 我有很多文件,我希望能够使用NLTK为语料库提供的语料库功能。 我已经尝试过,但是我无法超越: 如何使用分割句子?我尝试使用函数,但函数无法读取类? 你还可以引导我介绍如何将分段数据写入文本文件吗? 问题答案: 我认为,至少在你的输入语言是英语的情况下,已经使用punkt标记器对输入进行
我使用PyCharm作为Houdini中python代码的编辑器。每当我尝试导入主Houdini库(hou)时,我都会收到一个用PyCharm标记的错误。如果我包含代码段:- 我的代码执行,没有问题,从胡迪尼和我选择的解释器。 我的问题是PyCharm本身。编辑器将“导入后”标记为错误,导入该文件的任何后续文件也将该文件导入的模块标记为错误。因此,我放松了提前输入功能,并获得了过多的错误消息,这使
问题内容: 我正在尝试学习如何使用NLTK标记西班牙语单词。 从nltk的书中,使用它们的示例标记英语单词非常容易。因为我是nltk和所有语言处理的新手,所以我对如何进行程序感到很困惑。 我已经下载了语料库。有没有办法指定一个语料库。我看了看文档,没有发现任何建议。我觉得我缺少一些关键概念。我是否需要在cess_esp语料库中手动标记文本中的单词?(通过手动,我的意思是标记我的情感,然后再次运行语
我最近下载了Android Studio来开发Android应用程序(我来自Eclipse),我在使用外部库和/或外部JAR文件时遇到了问题。注意:以下测试是在Android Studio中从头创建的一个新应用项目上进行的。 示例1:JAR导入。 > 从Google下载Admobs SDK的新副本。 将库jar复制到项目的/libs/文件夹中。 在project explorer中,右键单击新添加