当前位置: 首页 > 面试题库 >

在NLTK和Python中创建自定义分类语料库

储法
2023-03-14
问题内容

我遇到了一个与正则表达式和CategorizedPlaintextCorpusReaderPython有关的问题。

我想创建一个自定义分类语料库,并在其上训练一个朴素贝叶斯分类器。我的问题如下:我想有两个类别,“ pos”和“
neg”。正文件全部位于一个目录中main_dir/pos/*.txt,而负文件均位于单独的目录中main_dir/neg/*.txt

如何使用CategorizedPlaintextCorpusReader加载并标记pos目录中的所有肯定文件,并对否定文件执行相同的操作?

注意:设置与Movie_reviews语料库(~nltk_data\corpora\movie_reviews)完全相同。


问题答案:

这是我的问题的答案。由于我一直在考虑使用两种情况,因此我认为最好覆盖两种情况,以防将来有人需要答案。如果您具有与movie_review语料库相同的设置-
多个标签以相同的方式标记,则您希望调用标签并包含训练数据,则可以使用此文件夹。

reader = CategorizedPlaintextCorpusReader('~/MainFolder/', r'.*\.txt', cat_pattern=r'(\w+)/*')

我正在考虑的另一种方法是将所有内容放在一个文件夹中,并命名文件0_neg.txt,0_pos.txt,1_neg.txt等。您的阅读器代码应类似于:

reader = CategorizedPlaintextCorpusReader('~/MainFolder/', r'.*\.txt', cat_pattern=r'\d+_(\w+)\.txt')

我希望这会在将来对某人有所帮助。



 类似资料:
  • 问题内容: 我认为标题的答案通常是去阅读文档,但是我浏览了NLTK书,但没有给出答案。我是Python的新手。 我有很多文件,我希望能够使用NLTK为语料库提供的语料库功能。 我已经尝试过,但是我无法超越: 如何使用分割句子?我尝试使用函数,但函数无法读取类? 你还可以引导我介绍如何将分段数据写入文本文件吗? 问题答案: 我认为,至少在你的输入语言是英语的情况下,已经使用punkt标记器对输入进行

  • 问题内容: 我认为标题的答案通常是去阅读文档,但是我遍历了NLTK书,但没有给出答案。我是Python的新手。 我有很多文件,我希望能够使用NLTK为语料库提供的语料库功能。 我已经尝试过,但是我无法超越: 如何使用punkt分割句子?我尝试使用punkt函数,但punkt函数无法读取类? 您还可以引导我介绍如何将分段数据写入文本文件吗? 问题答案: 我认为,至少在您的输入语言是英语的情况下,已经

  • 以前我只使用JSP和ApacheTiles,现在我第一次尝试创建Thymeleaf模板。我面临的问题是,我不知道如何将自定义页眉、页脚和其他部分插入默认值。html。下面是代码示例。 default.html: 默认情况下。html I有“siteContent”,用于插入应用程序的所有html文件,以及“header”、“sideMenu”和“footer”部分,这些部分必须在单独的相应html

  • 我正在尝试使用自定义NE(命名实体)字典在印度训练NER模型以进行分块。我分别引用NLTK和Stanford NER: NLTK 我找到了NEChunkParser能够在自定义语料库上进行训练。然而,文档或源代码注释中没有指定训练语料库的格式。 在哪里可以找到NLTK中NER的自定义语料库指南? 根据这个问题,斯坦福大学NER的FAQ给出了如何训练定制NER模型的方向。 主要问题之一是默认的斯坦福

  • 本书旨在介绍如何通过Python和NLTK实现自然语言处理。本书包括三个模块。模块1介绍文本挖掘/NLP任务中所需的所有预处理步骤,包括文本的整理和清洗、词性标注、对文本的结构进行语法分析、文本的分类等。 模块2讲述如何使用Python 3的NLTK 3进行文本处理,包括标记文本、替换和校正单词、创建自定义语料库、词性标注、提取组块、文本分类等。模块3讨论了如何通过Python掌握自然语言处理,包

  • 问题内容: 我试图在Python中创建具有自定义等待条件的函数。但是,我得到一个错误: TypeError:“布尔”对象不可调用 问题答案: 我最终要做的是使用兰巴舞