问题：

使用OpenNLP训练大数据集

阴高刚

2023-03-14

我有的数据集。火车文件及其非常大的文件说100MB文件。我想执行NER以提取组织名称。我使用OpenNLP进行了培训。

示例代码：

TokenNameFinderModel model=NameFinderME.train("en","organization",
              sampleStream,Collections.<String, Object>emptyMap());

但是我得到了一个错误：ArrayIndexOutofBoundException。

有没有办法使用openNLP for NER来训练大型数据集？你能发布示例代码吗？

当我谷歌时，我发现Class GIS和DataIndexer界面可用于训练大型数据集，但我知道如何训练？你能发布示例代码吗？

共有1个答案

司易安

2023-03-14

我可以用更大的数据创建模型，而不会产生任何问题。您可能对应用程序中的标记有问题。火车文件。另外，如果你能发布完整的例外情况，会有帮助吗？

对于训练更大的模型，我只是校准截止值并增加Java内存。

类似资料：

opennlp疾病样本训练数据

我正在使用OpenNLP进行数据分类。我在这里找不到疾病的TokenNameFindModel。我知道我可以创建自己的模型，但我想知道是否有针对疾病的大样本训练数据？
OpenNLP句子训练示例

我试图使用官方OpenNLP网站手册示例来训练一个新模型，以下是示例：问题出在2º线上，帮我说：不赞成。改用PlainTextByLineStream（InputStreamFactory，Charset）。但是我不知道如何使用这个构造函数。我想举一个例子，使用同一个语料库文件使用这个未弃用的构造函数。我已经编写了下一段代码，使用opennlp帮助和两种使用train方法的方法，不推荐的和建
已删除事件消息OpenNLP。在OpenNLP中删除训练数据

我已经标记了数据（标签和文本），如下所示：我尝试用OpenNLP库训练我Java分类模型。
使用BRAT为OpenNlp创建和训练模型？

我可能需要为OpenNLP创建一个自定义训练集，这将需要我手动注释很多条目。为了让事情变得更容易，GUI解决方案可能是最好的主意（手动编写注释标签并不酷），我刚刚发现了看起来像我需要的BRAT。 BRAT可以导出带注释的文件（. ann），但我在OpenNLP的手册中没有找到任何对该文件类型的引用，我不确定这是否可行。我想做的是从BRAT导出这个带注释的文件并使用它来训练OpenNLP的模型，
自定义模型训练opennlp

大家已经提到了这个，这个，这个和这个，但是仍然发现很难建立一个自定义的名字查找器模型。。以下是代码：我在尝试执行命令行时不断出现错误：让我把论点1改为然后我收到一个运行时错误，说你不能强制转换这个。这是我在线程“main”中强制转换第二个问题是：给出一个语法错误。不确定这里出了什么问题。如果有任何帮助，我将不胜感激，因为我已经尝试了上述链接上的所有代码片段。祝好
训练分类器模型Opennlp

我试图用下面的代码训练模型，但我一直在方法上收到错误，它告诉我将更改为。为什么？

使用OpenNLP训练大数据集

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档