当前位置: 首页 > 面试题库 >

NLTK使用语料库标记西班牙语单词

梁丘飞鸾
2023-03-14
问题内容

我正在尝试学习如何使用NLTK标记西班牙语单词。

从nltk的书中,使用它们的示例标记英语单词非常容易。因为我是nltk和所有语言处理的新手,所以我对如何进行程序感到很困惑。

我已经下载了cess_esp语料库。有没有办法指定一个语料库nltk.pos_tag。我看了看pos_tag文档,没有发现任何建议。我觉得我缺少一些关键概念。我是否需要在cess_esp语料库中手动标记文本中的单词?(通过手动,我的意思是标记我的情感,然后再次运行语料库)还是我完全偏离了常规。谢谢


问题答案:

首先,您需要 从语料库中读取带标记的句子。
NLTK提供了一个很好的界面,不用担心来自不同语料库的不同格式。您可以简单地导入语料库,使用语料库对象函数来访问数据。请参阅http://nltk.googlecode.com/svn/trunk/nltk_data/index.xml。

然后,您必须 选择标记器的选择并训练标记器 。还有更多花哨的选项,但您可以从N-gram标记器开始。

然后,您可以使用标记器标记所需的句子。这是一个示例代码:

from nltk.corpus import cess_esp as cess
from nltk import UnigramTagger as ut
from nltk import BigramTagger as bt

# Read the corpus into a list, 
# each entry in the list is one sentence.
cess_sents = cess.tagged_sents()

# Train the unigram tagger
uni_tag = ut(cess_sents)

sentence = "Hola , esta foo bar ."

# Tagger reads a list of tokens.
uni_tag.tag(sentence.split(" "))

# Split corpus into training and testing set.
train = int(len(cess_sents)*90/100) # 90%

# Train a bigram tagger with only training data.
bi_tag = bt(cess_sents[:train])

# Evaluates on testing data remaining 10%
bi_tag.evaluate(cess_sents[train+1:])

# Using the tagger.
bi_tag.tag(sentence.split(" "))

在大型语料库上训练标记器可能需要花费大量时间。无需在每次需要时训练标记器,而是将训练有素的标记器保存在文件中以供以后重用是很方便的。

请查看http://nltk.googlecode.com/svn/trunk/doc/book/ch05.html中的“
存储标记” 部分



 类似资料:
  • 问题内容: 我认为标题的答案通常是去阅读文档,但是我遍历了NLTK书,但没有给出答案。我是Python的新手。 我有很多文件,我希望能够使用NLTK为语料库提供的语料库功能。 我已经尝试过,但是我无法超越: 如何使用punkt分割句子?我尝试使用punkt函数,但punkt函数无法读取类? 您还可以引导我介绍如何将分段数据写入文本文件吗? 问题答案: 我认为,至少在您的输入语言是英语的情况下,已经

  • 我使用HtmlCleaner库来解析/转换java中的HTML文件。 似乎无法处理像“Áák NUÍíNU NU NU NU NU”这样的西班牙语字符 我可以在HtmlCleaner中设置任何属性来处理此解决方案或任何其他解决方案吗?这是我用来调用它的代码:

  • 问题内容: 我认为标题的答案通常是去阅读文档,但是我浏览了NLTK书,但没有给出答案。我是Python的新手。 我有很多文件,我希望能够使用NLTK为语料库提供的语料库功能。 我已经尝试过,但是我无法超越: 如何使用分割句子?我尝试使用函数,但函数无法读取类? 你还可以引导我介绍如何将分段数据写入文本文件吗? 问题答案: 我认为,至少在你的输入语言是英语的情况下,已经使用punkt标记器对输入进行

  • 我是新来的,想知道是否有人能帮我解决以下问题。 我正在用西班牙语和斯坦福大学的CoreNLP对文本进行情感分析,但没有得到积极的结果。 也就是说,如果我分析任何英语文本,把它放在西班牙语中分析是完美的,但结果总是否定的 我一直在寻找如何配置西班牙语解析器,令牌化和我发现的一切对于情感分析都是无用的。 有人可以告诉我,如果唯一有效的东西是标记化,而情感不是西班牙语? 这是我的属性文件,所以我设法找到

  • 我对ElasticSearch相当陌生。我试图用西班牙语分析输入,但颜色“rojo”(西班牙语中的红色)似乎有问题。 根据词干演示,字符串Polera颜色rojo(红色衬衫)应该词干为Poler颜色roj,Polera roja(红色衬衫)应该是poler roj,使我能够搜索为rojo或roja,并获得两个结果。 我在Kibana的控制台中用以下代码初始化了索引: 并使用以下代码进行了查询: 我

  • 问题内容: NLTK单词语料库没有短语“好”,“好”,“好”吗? 有什么想法吗? 问题答案: 在长 在文档中,单词是“ http://en.wikipedia.org/wiki/Words_(Unix) 在Unix中,您可以执行以下操作: 并阅读自述文件: 由于它是 234,936 的固定列表,因此该列表中 肯定 有不存在的单词。 如果需要扩展单词列表,则可以使用WordNet中的单词将单词添加到