当前位置: 首页 > 知识库问答 >
问题:

斯坦福NLP培训文档预处理器

邹举
2023-03-14

Stanford NLP是否为DocumentPreProcessor提供了一种训练方法,使其能够用自己的语料库进行训练,并创建自己的句子拆分模型?

我正在与德语句子工作,我需要创建我自己的句子拆分任务的德语模型。因此,我需要训练句子拆分器documentpreprocessor

我有办法做到吗?

共有1个答案

公冶安怡
2023-03-14

不。目前,所有欧洲语言的标记化都是由一个(手写的)有限自动机完成的。基于机器学习的标记用于中文和阿拉伯文。目前,所有语言的句子拆分都是利用标记器的决策,通过规则来完成的。(当然,这只是现在的情况,而不是必须的情况。)

目前,我们没有单独的德语标记器/句子拆分器。当前的属性文件只是重用了英文的属性文件。这显然是次优的。如果有人想为德国人生产一些东西,那就太好了。(我们可能会在某个时候这样做,但德国的发展目前不是优先事项。)

 类似资料:
  • 我一直在尝试与斯坦福核心NLP合作。我希望训练我自己的NER模型。从论坛上的SO和官网上描述了如何使用一个属性文件来实现这一点。我将如何通过API实现它?。 怎么做

  • 试图运行示例,但我一直无法打开“english-left3words-distsim.tagger”文件可能丢失。文件没有丢失,目录指向模型jar文件的位置,路径:edu\stanford\nlp\模型\pos-tagger\english-left3word在jar文件中是正确的。 我使用3.7.0,安装从nuget在视觉工作室2015. 代码如下: 我确实在Stack上看到了一个类似的问题,他

  • 我使用StanfordNLP来标记用智能手机编写的一组消息。这些文本有很多拼写错误,不遵守标点符号规则。通常,空格缺失会影响标记化。 例如,以下句子漏掉了“California.This”和“university,founded”中的空格。 斯坦福大学位于加利福尼亚州,这所大学是一所伟大的大学,创建于1891年。 标记器返回: {“斯坦福”、“大学”、“是”、“位于”、“加利福尼亚州”。这个”、“

  • 假设我们有一篇文章要注释。如果我们将文本作为一个非常长的句子而不是文档输入,斯坦福在注释一个长句子与循环遍历文档中的每个句子和最终所有结果之间有什么不同吗? 编辑:我运行了一个测试,似乎这两种方法返回了两个不同的NER集。我可能只是做错了,但这确实非常有趣,我很好奇为什么会发生这种情况。

  • 我曾使用grep和awk从斯坦福CRF-NER的“内联XML”中提取英语文本中的命名实体,我希望在其他人类语言中使用相同的更大工作流。 我一直在尝试法语(西班牙语似乎给我带来了一个Java错误,这是另一个故事),并使用我得到标准文本输出,每个句子都有各种类型的注释,包括正确组合在一起的多单词实体,如下所示: 我知道解析它是可能的,但当我真的只是想要整个文件中的实体列表时,这似乎浪费了很多处理。 我

  • 我是Java和Stanford NLP工具包的新手,并试图在一个项目中使用它们。具体地说,我尝试使用Stanford Corenlp toolkit来注释文本(使用Netbeans而不是命令行),并尝试使用http://nlp.Stanford.edu/software/Corenlp.shtml#Usage上提供的代码(使用Stanford Corenlp API)。问题是:有人能告诉我如何在文