我有的数据集。火车
文件及其非常大的文件说100MB文件。我想执行NER以提取组织名称。我使用OpenNLP进行了培训。
示例代码:
TokenNameFinderModel model=NameFinderME.train("en","organization",
sampleStream,Collections.<String, Object>emptyMap());
但是我得到了一个错误:ArrayIndexOutofBoundException
。
有没有办法使用openNLP for NER来训练大型数据集?你能发布示例代码吗?
当我谷歌时,我发现Class GIS和DataIndexer界面可用于训练大型数据集,但我知道如何训练?你能发布示例代码吗?
我可以用更大的数据创建模型,而不会产生任何问题。您可能对应用程序中的标记有问题。火车文件。另外,如果你能发布完整的例外情况,会有帮助吗?
对于训练更大的模型,我只是校准截止值并增加Java内存。
我正在使用OpenNLP进行数据分类。我在这里找不到疾病的TokenNameFindModel。我知道我可以创建自己的模型,但我想知道是否有针对疾病的大样本训练数据?
我试图使用官方OpenNLP网站手册示例来训练一个新模型,以下是示例: 问题出在2º线上, 帮我说:不赞成。改用PlainTextByLineStream(InputStreamFactory,Charset)。但是我不知道如何使用这个构造函数。我想举一个例子,使用同一个语料库文件使用这个未弃用的构造函数。 我已经编写了下一段代码,使用opennlp帮助和两种使用train方法的方法,不推荐的和建
我已经标记了数据(标签和文本),如下所示: 我尝试用OpenNLP库训练我Java分类模型。
我可能需要为OpenNLP创建一个自定义训练集,这将需要我手动注释很多条目。 为了让事情变得更容易,GUI解决方案可能是最好的主意(手动编写注释标签并不酷),我刚刚发现了看起来像我需要的BRAT。 BRAT可以导出带注释的文件(. ann),但我在OpenNLP的手册中没有找到任何对该文件类型的引用,我不确定这是否可行。 我想做的是从BRAT导出这个带注释的文件并使用它来训练OpenNLP的模型,
大家已经提到了这个,这个,这个和这个,但是仍然发现很难建立一个自定义的名字查找器模型。。以下是代码: 我在尝试执行命令行时不断出现错误: 让我把论点1改为 然后我收到一个运行时错误,说你不能强制转换这个。这是我在线程“main”中强制转换 第二个问题是: 给出一个语法错误。不确定这里出了什么问题。如果有任何帮助,我将不胜感激,因为我已经尝试了上述链接上的所有代码片段。 祝好
我试图用下面的代码训练模型,但我一直在方法上收到错误,它告诉我将更改为。为什么?