我正在使用斯坦福大学的openNLP引擎在30000个文档集合中查找名词,在这样做的同时,我在java中遇到了OutofMemory错误,尽管我在文档的特定部分中检测到了所有名词,这意味着我只将一部分文本传递给openNLP中的MaxentTagger,我应该如何纠正这个错误?
使用此开关增加java程序的内存分配:
-xmx
如
java-Xmx512m-jar文件。罐子
它也不一定需要在RAM的范围内,只要你有一些页面文件,如果你把页面文件的大小设置为那么大,它就可以是10gb。
理想情况下,你想让任何正在消耗记忆的东西更好地组织起来,并尽可能地减少。
我对这两个软件包做了一些比较,不确定应该朝哪个方向发展。我想简要介绍的是: 命名实体识别(人员、地点、组织等) 据我所知,OpenNLP和Stanford CoreNLP公开了非常相似的功能。然而,斯坦福大学的CoreNLP看起来有更多的活动,而OpenNLP在过去六个月里只有几次提交。 根据我所看到的,OpenNLP似乎更容易训练新的模型,仅仅因为这个原因可能更具吸引力。然而,我的问题是,其他人
这是意料之中的行为吗?我在前面运行完整的管道吗?
我正在注释和分析一系列文本文件。 pipeline.annotate方法每次读取文件时都会变得越来越慢。最终,我得到了一个OutOfMemoryError。 管道初始化一次: 然后,我使用相同的管道实例处理每个文件(如SO和斯坦福大学在其他地方推荐的)。 明确地说,我希望问题出在我的配置上。但是,我确信失速和内存问题发生在pipeline.annotate(file)方法上。 在处理每个文件后,我
Technik NN Technik O kann VMFIN kann O 耶多克ADV耶多克O 我使用的是以下德国模型:Stanford-German-Corenlp-2018-02-27-models.jar 根据自述文件,coreNLP工具的版本是“2018-02-27 3.9.1” java版本“10.0.1”2018-04-17
我在使用Stanford pipeline(CoreNLP的最后一个版本)解析BNC时遇到了一个问题。 解析器只是停留在这个句子中,它甚至不会抛出错误。句子在web界面中得到正确的解析。 我尝试了标记器的选项,但没有结果。 我添加了我正在使用的命令行:java[...]edu.stanford.nlp.pipeline.stanfordCorenlp-注释器tokenize,ssplit,pos,
我假设我试图将输出转换成的格式是旧版本的CorenLP的默认输出。有什么方法可以得到所需格式的输出吗?