当前位置：首页 > 面试题库 >

在NLTK和Python中创建自定义分类语料库

储法

2023-03-14

问题内容：

我遇到了一个与正则表达式和CategorizedPlaintextCorpusReaderPython有关的问题。

我想创建一个自定义分类语料库，并在其上训练一个朴素贝叶斯分类器。我的问题如下：我想有两个类别，“ pos”和“
neg”。正文件全部位于一个目录中main_dir/pos/*.txt，而负文件均位于单独的目录中main_dir/neg/*.txt。

如何使用CategorizedPlaintextCorpusReader加载并标记pos目录中的所有肯定文件，并对否定文件执行相同的操作？

注意：设置与Movie_reviews语料库（~nltk_data\corpora\movie_reviews）完全相同。

问题答案：

这是我的问题的答案。由于我一直在考虑使用两种情况，因此我认为最好覆盖两种情况，以防将来有人需要答案。如果您具有与movie_review语料库相同的设置-
多个标签以相同的方式标记，则您希望调用标签并包含训练数据，则可以使用此文件夹。

reader = CategorizedPlaintextCorpusReader('~/MainFolder/', r'.*\.txt', cat_pattern=r'(\w+)/*')

我正在考虑的另一种方法是将所有内容放在一个文件夹中，并命名文件0_neg.txt，0_pos.txt，1_neg.txt等。您的阅读器代码应类似于：

reader = CategorizedPlaintextCorpusReader('~/MainFolder/', r'.*\.txt', cat_pattern=r'\d+_(\w+)\.txt')

我希望这会在将来对某人有所帮助。

类似资料：

Python-使用NLTK创建新的语料库

问题内容：我认为标题的答案通常是去阅读文档，但是我浏览了NLTK书，但没有给出答案。我是Python的新手。我有很多文件，我希望能够使用NLTK为语料库提供的语料库功能。我已经尝试过，但是我无法超越：如何使用分割句子？我尝试使用函数，但函数无法读取类？你还可以引导我介绍如何将分段数据写入文本文件吗？问题答案：我认为，至少在你的输入语言是英语的情况下，已经使用punkt标记器对输入进行
使用NLTK创建新的语料库

问题内容：我认为标题的答案通常是去阅读文档，但是我遍历了NLTK书，但没有给出答案。我是Python的新手。我有很多文件，我希望能够使用NLTK为语料库提供的语料库功能。我已经尝试过，但是我无法超越：如何使用punkt分割句子？我尝试使用punkt函数，但punkt函数无法读取类？您还可以引导我介绍如何将分段数据写入文本文件吗？问题答案：我认为，至少在您的输入语言是英语的情况下，已经
Thymeleaf：在default.html中创建自定义部分

以前我只使用JSP和ApacheTiles，现在我第一次尝试创建Thymeleaf模板。我面临的问题是，我不知道如何将自定义页眉、页脚和其他部分插入默认值。html。下面是代码示例。 default.html：默认情况下。html I有“siteContent”，用于插入应用程序的所有html文件，以及“header”、“sideMenu”和“footer”部分，这些部分必须在单独的相应html
基于自定义语料库的NLTK或Stanford-NER命名实体识别

我正在尝试使用自定义NE（命名实体）字典在印度训练NER模型以进行分块。我分别引用NLTK和Stanford NER： NLTK 我找到了NEChunkParser能够在自定义语料库上进行训练。然而，文档或源代码注释中没有指定训练语料库的格式。在哪里可以找到NLTK中NER的自定义语料库指南？根据这个问题，斯坦福大学NER的FAQ给出了如何训练定制NER模型的方向。主要问题之一是默认的斯坦福
Python 和 NLTK 自然语言处理

本书旨在介绍如何通过Python和NLTK实现自然语言处理。本书包括三个模块。模块1介绍文本挖掘/NLP任务中所需的所有预处理步骤，包括文本的整理和清洗、词性标注、对文本的结构进行语法分析、文本的分类等。模块2讲述如何使用Python 3的NLTK 3进行文本处理，包括标记文本、替换和校正单词、创建自定义语料库、词性标注、提取组块、文本分类等。模块3讨论了如何通过Python掌握自然语言处理，包
在Python中创建自定义等待条件

问题内容：我试图在Python中创建具有自定义等待条件的函数。但是，我得到一个错误： TypeError：“布尔”对象不可调用问题答案：我最终要做的是使用兰巴舞

相关阅读

nltk语料库不包含“好”吗？在Axis2中创建自定义异常在JavaScript中创建自定义回调在python中构建自定义Caffe层使用nltk自定义标记

相关文章

Python type()动态创建类 JSF自定义验证器类二分图的定义和判定 Go语言自定义数据文件 Python JSON的解析和创建

相关问答

在Android中创建自定义Seekbar 用Python创建自定义Spark RDD WordPress为自定义分类创建模板文件在Springboot中创建自定义Jasypt PropertySource 在java中创建自定义异常

相关工具

自定义UITabBar 自定义NavigationBar 自定义AlertView NLTK 自定义的TabBar

相关文档

Python 和 NLTK 自然语言处理 Python 自然语言处理 Python 自然语言处理教程 Python 和 Pandas 数据分析教程 Python OpenCV 图像和视频分析