当前位置：首页 > 面试题库 >

NLTK使用语料库标记西班牙语单词

梁丘飞鸾

2023-03-14

问题内容：

我正在尝试学习如何使用NLTK标记西班牙语单词。

从nltk的书中，使用它们的示例标记英语单词非常容易。因为我是nltk和所有语言处理的新手，所以我对如何进行程序感到很困惑。

我已经下载了cess_esp语料库。有没有办法指定一个语料库nltk.pos_tag。我看了看pos_tag文档，没有发现任何建议。我觉得我缺少一些关键概念。我是否需要在cess_esp语料库中手动标记文本中的单词？（通过手动，我的意思是标记我的情感，然后再次运行语料库）还是我完全偏离了常规。谢谢

问题答案：

首先，您需要 从语料库中读取带标记的句子。
NLTK提供了一个很好的界面，不用担心来自不同语料库的不同格式。您可以简单地导入语料库，使用语料库对象函数来访问数据。请参阅http://nltk.googlecode.com/svn/trunk/nltk_data/index.xml。

然后，您必须 选择标记器的选择并训练标记器 。还有更多花哨的选项，但您可以从N-gram标记器开始。

然后，您可以使用标记器标记所需的句子。这是一个示例代码：

from nltk.corpus import cess_esp as cess
from nltk import UnigramTagger as ut
from nltk import BigramTagger as bt

# Read the corpus into a list, 
# each entry in the list is one sentence.
cess_sents = cess.tagged_sents()

# Train the unigram tagger
uni_tag = ut(cess_sents)

sentence = "Hola , esta foo bar ."

# Tagger reads a list of tokens.
uni_tag.tag(sentence.split(" "))

# Split corpus into training and testing set.
train = int(len(cess_sents)*90/100) # 90%

# Train a bigram tagger with only training data.
bi_tag = bt(cess_sents[:train])

# Evaluates on testing data remaining 10%
bi_tag.evaluate(cess_sents[train+1:])

# Using the tagger.
bi_tag.tag(sentence.split(" "))

在大型语料库上训练标记器可能需要花费大量时间。无需在每次需要时训练标记器，而是将训练有素的标记器保存在文件中以供以后重用是很方便的。

请查看http://nltk.googlecode.com/svn/trunk/doc/book/ch05.html中的“
存储标记” 部分

类似资料：

使用NLTK创建新的语料库

问题内容：我认为标题的答案通常是去阅读文档，但是我遍历了NLTK书，但没有给出答案。我是Python的新手。我有很多文件，我希望能够使用NLTK为语料库提供的语料库功能。我已经尝试过，但是我无法超越：如何使用punkt分割句子？我尝试使用punkt函数，但punkt函数无法读取类？您还可以引导我介绍如何将分段数据写入文本文件吗？问题答案：我认为，至少在您的输入语言是英语的情况下，已经
HTMLCLEANER处理西班牙语字符

我使用HtmlCleaner库来解析/转换java中的HTML文件。似乎无法处理像“Áák NUÍíNU NU NU NU NU”这样的西班牙语字符我可以在HtmlCleaner中设置任何属性来处理此解决方案或任何其他解决方案吗？这是我用来调用它的代码：
Python-使用NLTK创建新的语料库

问题内容：我认为标题的答案通常是去阅读文档，但是我浏览了NLTK书，但没有给出答案。我是Python的新手。我有很多文件，我希望能够使用NLTK为语料库提供的语料库功能。我已经尝试过，但是我无法超越：如何使用分割句子？我尝试使用函数，但函数无法读取类？你还可以引导我介绍如何将分段数据写入文本文件吗？问题答案：我认为，至少在你的输入语言是英语的情况下，已经使用punkt标记器对输入进行
使用Stanford coreNLP进行西班牙语情绪分析

我是新来的，想知道是否有人能帮我解决以下问题。我正在用西班牙语和斯坦福大学的CoreNLP对文本进行情感分析，但没有得到积极的结果。也就是说，如果我分析任何英语文本，把它放在西班牙语中分析是完美的，但结果总是否定的我一直在寻找如何配置西班牙语解析器，令牌化和我发现的一切对于情感分析都是无用的。有人可以告诉我，如果唯一有效的东西是标记化，而情感不是西班牙语？这是我的属性文件，所以我设法找到
Elasticsearch西班牙语词干生成不使用“rojo”颜色

我对ElasticSearch相当陌生。我试图用西班牙语分析输入，但颜色“rojo”（西班牙语中的红色）似乎有问题。根据词干演示，字符串Polera颜色rojo（红色衬衫）应该词干为Poler颜色roj，Polera roja（红色衬衫）应该是poler roj，使我能够搜索为rojo或roja，并获得两个结果。我在Kibana的控制台中用以下代码初始化了索引：并使用以下代码进行了查询：我
nltk语料库不包含“好”吗？

问题内容： NLTK单词语料库没有短语“好”，“好”，“好”吗？有什么想法吗？问题答案：在长在文档中，单词是“ http://en.wikipedia.org/wiki/Words_(Unix）在Unix中，您可以执行以下操作：并阅读自述文件：由于它是 234,936 的固定列表，因此该列表中肯定有不存在的单词。如果需要扩展单词列表，则可以使用WordNet中的单词将单词添加到

相关阅读

无法将日期翻译成具有语言环境的西班牙语（“ es_ES”）如何在NLTK中标记字符串语句？在NLTK和Python中创建自定义分类语料库使用nltk自定义标记如何使用Scikit Learn CountVectorizer获得语料库中的单词频率？

相关文章

简单大方的英语口语自我介绍 Go语言单向通道 Go语言上手简单 Go语言结构体标签 Java10 Unicode语言标签扩展

相关问答

FOP断字无法构建西班牙语模式如何在php中将英语日期更改为西班牙语？如何使用 Apache POI 强制 Excel 以西班牙语区域设置显示值如何使用Python和NLTK从语料库中提取关键词（不是最常见的词）？使用stanford词性标记器的阿拉伯语标记

相关工具

语言岛智能记单词 NLTK D语言程序库 Tango 隐语 hands-on-nltk-tutorial

相关文档

Go 语言标准库 Python 和 NLTK 自然语言处理 Go 语言标准库中文文档 Rust 语言学习笔记易语言知识库