当前位置: 首页 > 知识库问答 >
问题:

如何获取OpenNLP模型的训练集?

曹君墨
2023-03-14

我使用的OpenNLP模型如下:

en-parser-chunking.bin
en-ner-person.bin
en-ner-location.bin
en-ner-organization.bin

我想把我的数据附加到训练数据集中,这些模型就是在这个数据集中训练的。那么请告诉我从哪里可以得到原始数据集?

共有2个答案

司空祯
2023-03-14

有插件可供使用。使用此modelbuilder插件更新现有的NER模型,并以更快的方式创建新模型。

链接中的代码是在你的句子中读出来的,使用默认的en-ner-person模型做到最好。然后,它将这些结果写入一个好命中率文件和一个坏命中率文件。然后将这些文件输入底部的“modelbuilder插件”调用。

希望这有帮助!

咸亦
2023-03-14

OpenNLP官方手册的Chunker训练部分提到了对用于训练EN语言模型文件的原始数据的引用:

训练数据可以转换为基于CoNLL2000的OpenNLP chunker训练格式。

您还可以找到其他参考文献,例如第12章。语料库,用于/用于OpenNLP的外部资源。

此外,CoNLL2003语料库可能会感兴趣:

英文数据为路透社语料库,是新闻连线文章的集合,路透社语料库可从NIST免费获得,用于研究目的:http://trec.nist.gov/data/reuters/reuters.html

希望有帮助。

 类似资料:
  • 我是使用NER进行Open NLP实体提取的新手,我在Open NLP NER中训练和评估了实体提取的模型,当我给出带有一个词的实体的输入文本时,它可以正常工作例如:“我想购买吉百利” 但它不适用于多词场景,例如:“我想买一台苹果MacBook” 如何训练模特选择多个单词 PS:我知道我需要做一些与NLP中提供的Bigram相关的事情,但是如何使用OpenNLP呢?

  • 我正在尝试训练名称查找器模型来检测名称,但它没有给出正确的结果。这是代码。 这是iam得到的输出: 检测到的名称:[07-20 19:35:47.516 8799:8799 I/Adreno EGL] en-ner-person.train内容是: 请帮忙。

  • 大家已经提到了这个,这个,这个和这个,但是仍然发现很难建立一个自定义的名字查找器模型。。以下是代码: 我在尝试执行命令行时不断出现错误: 让我把论点1改为 然后我收到一个运行时错误,说你不能强制转换这个。这是我在线程“main”中强制转换 第二个问题是: 给出一个语法错误。不确定这里出了什么问题。如果有任何帮助,我将不胜感激,因为我已经尝试了上述链接上的所有代码片段。 祝好

  • 我试图用下面的代码训练模型,但我一直在方法上收到错误,它告诉我将更改为。为什么?

  • 例如,没有找到一些名称,我想向现有数据模型添加新数据。我找到了这个点击这里的答案,但我不明白 什么是?是的克隆吗? 我们应该加载现有模型并从文件中添加新数据?什么类型的信息应该包含?

  • 我发现很难创建自己的openNLP模型。谁能告诉我,如何拥有自己的模型。培训应该如何进行。 输入应该是什么,输出模型文件将存储在哪里。