我想在一个特定的领域进行NER实验,即从意大利语的旅行优惠中提取位置名称。
到目前为止,我需要自己准备训练,所以我要把
<START:something><END>
在我的培训集中的一些报价中添加标签。
但在查看OpenNLP关于如何为NER进行培训的文档时,我最终遇到了几个问题:
1) 在定义开始/结束标记时,我可以自由使用标记中的任何名称(我在上面几行写了“某物”),或者是否有要绑定的限制集?
2) 我注意到对培训工具的调用
opennlp TokenNameFinderTrainer
将表示语言的字符串作为第一个参数。那是干什么的?考虑到我想培训一名不受支持的意大利语模特,在我为NER培训之前,还有什么额外的任务要做吗?
1) 是的,您可以指定多种类型。如果培训文件包含多种类型,则创建的模型也将能够检测到这些多种类型。
2)我认为“lang”参数与其他命令具有相同的含义/用途(例如opennlp TokenizerTrainer-lang it...
)
根据文档中的指南,我试图在一些数据上测试training OpenNLP的Name Finder。然而,我遇到了错误:,这似乎没有任何意义。 我运行的命令是: 我从https://opennlp.apache.org/download.html.环境变量似乎设置正确,基本文件夹中的文件夹包含一个文件夹。 编辑:这似乎与CoNLL2003格式有关。如果我尝试直接运行训练器而不指定它就可以工作。但是我
问题内容: 好的,我有以下代码来训练来自OpenNLP的NER标识符 我不知道我是否做错了什么,如果缺少什么,但是分类不起作用。我认为train.txt错误。 *发生 *的错误 是所有令牌仅被分类为一种类型。 我的train.txt数据类似于以下示例,但是条目的变化和数量更多。另一件事是,我每次都从文本中逐字逐句地查找,而不是所有标记。 有人可以证明我做错了吗? 问题答案: 您的训练数据不正确。
我目前正在从事一个java web服务器项目,该项目需要使用自然语言处理,特别是实体识别(Entity Recognition,NER)。 我在java中使用OpenNLP,因为添加自定义训练数据很容易。它工作得很好。 然而,我还需要能够提取实体内部的实体(嵌套命名实体识别)。我试着在OpenNLP中这样做,但我遇到了解析错误。所以我猜OpenNLP很遗憾不支持嵌套实体。 下面是一个我需要解析的示
我想使用NLP工具从意大利文本中提取名称和数字。 遗憾的是,斯坦福德NLP和Apache OpenNLP都没有为意大利人提供模型。 我能找到一个,或者找到训练数据来制造一个吗?(至少15000句)
我正在尝试阿尔巴尼亚语的OpenNLP。为此,我正在使用OPenNLP并尝试用阿尔巴尼亚语构建人员、位置和组织实体识别的模型。我正在构建我自己的语料库,但我需要一位Open NLP专家来确认我以下疑问:1-我是否应该为每个模型构建一个单独的语料库,例如,对于人构建一个只有标签存在的语料库?2-是否可以在相同的语料库中标记人员、位置和组织,并使用它来训练能够提取所有三种实体类型的单个模型?3-是否有
有人能指出openNLP NameFinder模块使用的算法吗?代码很复杂,只有很少的文档记录,并且将其作为黑匣子(提供默认模型)使用给我的印象是它主要是启发式的。以下是一些输入和输出示例: 输入: 约翰·史密斯很沮丧。 约翰·史密斯很沮丧。 巴拉克·奥巴马感到沮丧。 乌戈·查韦斯很沮丧。(不再) 杰夫·阿特伍德很沮丧。 刘冰对openNLP NER模块感到失望。 诺姆·乔姆斯基对这个世界感到沮丧