当前位置: 首页 > 知识库问答 >
问题:

如何使用OpenNLP实现阿尔巴尼亚语的命名实体识别?

寇夜洛
2023-03-14

我正在尝试阿尔巴尼亚语的OpenNLP。为此,我正在使用OPenNLP并尝试用阿尔巴尼亚语构建人员、位置和组织实体识别的模型。我正在构建我自己的语料库,但我需要一位Open NLP专家来确认我以下疑问:1-我是否应该为每个模型构建一个单独的语料库,例如,对于人构建一个只有标签存在的语料库?2-是否可以在相同的语料库中标记人员、位置和组织,并使用它来训练能够提取所有三种实体类型的单个模型?3-是否有资源可以找到更多关于OpenNLP名称查找器模块使用的算法的信息?

谢谢你的回复,我真的需要你对我论文的支持

共有1个答案

岑驰
2023-03-14

1-我是否应该为每个模型建立一个单独的语料库,例如,为ner人员建立一个只存在标签的语料库?是的。。。但是,一个模型可能包含多种名称类型。如果将它们分开,就可以更容易地更新和迭代地改进给定名称的模型,尤其是当它们是大型模型时。

2.是否有可能在同一个语料库中标注人、地点和组织,并使用它来训练一个能够提取所有三种实体类型的单一模型?是的,这是可能的,但如果你计划基于每种名称类型构建并优化模型,那么让它们分开对我来说就更容易了。

3-有没有资源可以让我从OpenNLP名称查找模块中找到更多关于算法的信息?最好的办法是把源代码拉下来,用一些真实的数据一步一步地浏览代码。。。它基于最大熵。

 类似资料:
  • 问题内容: 好的,我有以下代码来训练来自OpenNLP的NER标识符 我不知道我是否做错了什么,如果缺少什么,但是分类不起作用。我认为train.txt错误。 *发生 *的错误 是所有令牌仅被分类为一种类型。 我的train.txt数据类似于以下示例,但是条目的变化和数量更多。另一件事是,我每次都从文本中逐字逐句地查找,而不是所有标记。 有人可以证明我做错了吗? 问题答案: 您的训练数据不正确。

  • 我目前正在从事一个java web服务器项目,该项目需要使用自然语言处理,特别是实体识别(Entity Recognition,NER)。 我在java中使用OpenNLP,因为添加自定义训练数据很容易。它工作得很好。 然而,我还需要能够提取实体内部的实体(嵌套命名实体识别)。我试着在OpenNLP中这样做,但我遇到了解析错误。所以我猜OpenNLP很遗憾不支持嵌套实体。 下面是一个我需要解析的示

  • 有人能指出openNLP NameFinder模块使用的算法吗?代码很复杂,只有很少的文档记录,并且将其作为黑匣子(提供默认模型)使用给我的印象是它主要是启发式的。以下是一些输入和输出示例: 输入: 约翰·史密斯很沮丧。 约翰·史密斯很沮丧。 巴拉克·奥巴马感到沮丧。 乌戈·查韦斯很沮丧。(不再) 杰夫·阿特伍德很沮丧。 刘冰对openNLP NER模块感到失望。 诺姆·乔姆斯基对这个世界感到沮丧

  • 我想使用NLP工具从意大利文本中提取名称和数字。 遗憾的是,斯坦福德NLP和Apache OpenNLP都没有为意大利人提供模型。 我能找到一个,或者找到训练数据来制造一个吗?(至少15000句)

  • 我想在一个特定的领域进行NER实验,即从意大利语的旅行优惠中提取位置名称。 到目前为止,我需要自己准备训练,所以我要把 在我的培训集中的一些报价中添加标签。 但在查看OpenNLP关于如何为NER进行培训的文档时,我最终遇到了几个问题: 1) 在定义开始/结束标记时,我可以自由使用标记中的任何名称(我在上面几行写了“某物”),或者是否有要绑定的限制集? 2) 我注意到对培训工具的调用 将表示语言的

  • 问题内容: 我正在寻找Java的简单但“足够好”的命名实体识别库(和字典),我正在处理电子邮件和文档并提取一些“基本信息”,例如:名称,地点,地址和日期 我一直在环顾四周,大多数似乎都是沉重的一面和完整的NLP项目。 有什么建议吗? 问题答案: 顺便说一句,我最近遇到了OpenCalais,它似乎具有我要照顾的功能。