如何获取OpenNLP模型的训练集？

曹君墨

2023-03-14

我使用的OpenNLP模型如下：

en-parser-chunking.bin
en-ner-person.bin
en-ner-location.bin
en-ner-organization.bin

我想把我的数据附加到训练数据集中，这些模型就是在这个数据集中训练的。那么请告诉我从哪里可以得到原始数据集？

共有2个答案

司空祯

2023-03-14

有插件可供使用。使用此modelbuilder插件更新现有的NER模型，并以更快的方式创建新模型。

链接中的代码是在你的句子中读出来的，使用默认的en-ner-person模型做到最好。然后，它将这些结果写入一个好命中率文件和一个坏命中率文件。然后将这些文件输入底部的“modelbuilder插件”调用。

希望这有帮助！

咸亦

2023-03-14

OpenNLP官方手册的Chunker训练部分提到了对用于训练EN语言模型文件的原始数据的引用：

训练数据可以转换为基于CoNLL2000的OpenNLP chunker训练格式。

您还可以找到其他参考文献，例如第12章。语料库，用于/用于OpenNLP的外部资源。

此外，CoNLL2003语料库可能会感兴趣：

英文数据为路透社语料库，是新闻连线文章的集合，路透社语料库可从NIST免费获得，用于研究目的：http://trec.nist.gov/data/reuters/reuters.html

希望有帮助。

类似资料：

如何训练OpenNLP模型提取多集合词

我是使用NER进行Open NLP实体提取的新手，我在Open NLP NER中训练和评估了实体提取的模型，当我给出带有一个词的实体的输入文本时，它可以正常工作例如：“我想购买吉百利” 但它不适用于多词场景，例如：“我想买一台苹果MacBook” 如何训练模特选择多个单词 PS：我知道我需要做一些与NLP中提供的Bigram相关的事情，但是如何使用OpenNLP呢？
如何在OpenNLP中训练名称模型？

我正在尝试训练名称查找器模型来检测名称，但它没有给出正确的结果。这是代码。这是iam得到的输出：检测到的名称：[07-20 19:35:47.516 8799:8799 I/Adreno EGL] en-ner-person.train内容是：请帮忙。
自定义模型训练opennlp

大家已经提到了这个，这个，这个和这个，但是仍然发现很难建立一个自定义的名字查找器模型。。以下是代码：我在尝试执行命令行时不断出现错误：让我把论点1改为然后我收到一个运行时错误，说你不能强制转换这个。这是我在线程“main”中强制转换第二个问题是：给出一个语法错误。不确定这里出了什么问题。如果有任何帮助，我将不胜感激，因为我已经尝试了上述链接上的所有代码片段。祝好
训练分类器模型Opennlp

我试图用下面的代码训练模型，但我一直在方法上收到错误，它告诉我将更改为。为什么？
Apache OpenNLP，如何训练或制作新模型？

例如，没有找到一些名称，我想向现有数据模型添加新数据。我找到了这个点击这里的答案，但我不明白什么是？是的克隆吗？我们应该加载现有模型并从文件中添加新数据？什么类型的信息应该包含？
在opennlp中训练自己的模型

我发现很难创建自己的openNLP模型。谁能告诉我，如何拥有自己的模型。培训应该如何进行。输入应该是什么，输出模型文件将存储在哪里。

如何获取OpenNLP模型的训练集？

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档