问题：

OpenNLP，在不支持的语言上培训命名实体识别：需要澄清

郭逸清

2023-03-14

我想在一个特定的领域进行NER实验，即从意大利语的旅行优惠中提取位置名称。

到目前为止，我需要自己准备训练，所以我要把

<START:something><END>

在我的培训集中的一些报价中添加标签。

但在查看OpenNLP关于如何为NER进行培训的文档时，我最终遇到了几个问题：

1）在定义开始/结束标记时，我可以自由使用标记中的任何名称（我在上面几行写了“某物”），或者是否有要绑定的限制集？

2）我注意到对培训工具的调用

opennlp TokenNameFinderTrainer

将表示语言的字符串作为第一个参数。那是干什么的？考虑到我想培训一名不受支持的意大利语模特，在我为NER培训之前，还有什么额外的任务要做吗？

共有1个答案

米修平

2023-03-14

1）是的，您可以指定多种类型。如果培训文件包含多种类型，则创建的模型也将能够检测到这些多种类型。

2）我认为“lang”参数与其他命令具有相同的含义/用途（例如opennlp TokenizerTrainer-lang it...）

类似资料：

OpenNLP名称查找器培训：不支持的语言：en

根据文档中的指南，我试图在一些数据上测试training OpenNLP的Name Finder。然而，我遇到了错误：，这似乎没有任何意义。我运行的命令是：我从https://opennlp.apache.org/download.html.环境变量似乎设置正确，基本文件夹中的文件夹包含一个文件夹。编辑：这似乎与CoNLL2003格式有关。如果我尝试直接运行训练器而不指定它就可以工作。但是我
如何在OpenNLP中训练命名实体识别器标识符？

问题内容：好的，我有以下代码来训练来自OpenNLP的NER标识符我不知道我是否做错了什么，如果缺少什么，但是分类不起作用。我认为train.txt错误。 *发生 *的错误是所有令牌仅被分类为一种类型。我的train.txt数据类似于以下示例，但是条目的变化和数量更多。另一件事是，我每次都从文本中逐字逐句地查找，而不是所有标记。有人可以证明我做错了吗？问题答案：您的训练数据不正确。
如何在OpenNLP中进行嵌套命名实体识别？

我目前正在从事一个java web服务器项目，该项目需要使用自然语言处理，特别是实体识别（Entity Recognition，NER）。我在java中使用OpenNLP，因为添加自定义训练数据很容易。它工作得很好。然而，我还需要能够提取实体内部的实体（嵌套命名实体识别）。我试着在OpenNLP中这样做，但我遇到了解析错误。所以我猜OpenNLP很遗憾不支持嵌套实体。下面是一个我需要解析的示
意大利语命名实体识别

我想使用NLP工具从意大利文本中提取名称和数字。遗憾的是，斯坦福德NLP和Apache OpenNLP都没有为意大利人提供模型。我能找到一个，或者找到训练数据来制造一个吗？（至少15000句）
如何使用OpenNLP实现阿尔巴尼亚语的命名实体识别？

我正在尝试阿尔巴尼亚语的OpenNLP。为此，我正在使用OPenNLP并尝试用阿尔巴尼亚语构建人员、位置和组织实体识别的模型。我正在构建我自己的语料库，但我需要一位Open NLP专家来确认我以下疑问：1-我是否应该为每个模型构建一个单独的语料库，例如，对于人构建一个只有标签存在的语料库？2-是否可以在相同的语料库中标记人员、位置和组织，并使用它来训练能够提取所有三种实体类型的单个模型？3-是否有
使用openNLP（默认模型）进行命名实体识别

有人能指出openNLP NameFinder模块使用的算法吗？代码很复杂，只有很少的文档记录，并且将其作为黑匣子（提供默认模型）使用给我的印象是它主要是启发式的。以下是一些输入和输出示例：输入：约翰·史密斯很沮丧。约翰·史密斯很沮丧。巴拉克·奥巴马感到沮丧。乌戈·查韦斯很沮丧。（不再）杰夫·阿特伍德很沮丧。刘冰对openNLP NER模块感到失望。诺姆·乔姆斯基对这个世界感到沮丧

OpenNLP，在不支持的语言上培训命名实体识别：需要澄清

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档