当前位置: 首页 > 知识库问答 >
问题:

Apache OpenNLP在运行其命名实体识别(NER)模型时默认使用哪些功能?

慕容烨
2023-03-14

我知道Apache OpenNLP使用MaxEnt模型作为其NER标记器。但是Apache OpenNLP在运行其命名实体识别(NER)模型时(默认情况下)使用了哪些功能?以及我们如何在OpenNLP(Java实现)中合并/自定义新功能?

共有1个答案

仇和蔼
2023-03-14

在ApacheOpenNLPNER中,它允许用户通过XML文件定义特性。默认的XML是:

https://github.com/apache/opennlp/blob/master/opennlp-tools/src/main/resources/opennlp/tools/namefind/ner-default-features.xml

如果您想自定义它,请在训练模型时使用-Funcuregen选项:

$ opennlp TokenNameFinderTrainer -featuregen your-features-definition.xml -model my-model.bin ...

执行TokenNameFinder时,您无需指定自定义功能XML文件,因为模型文件包含您的功能信息。

 类似资料:
  • 有人能指出openNLP NameFinder模块使用的算法吗?代码很复杂,只有很少的文档记录,并且将其作为黑匣子(提供默认模型)使用给我的印象是它主要是启发式的。以下是一些输入和输出示例: 输入: 约翰·史密斯很沮丧。 约翰·史密斯很沮丧。 巴拉克·奥巴马感到沮丧。 乌戈·查韦斯很沮丧。(不再) 杰夫·阿特伍德很沮丧。 刘冰对openNLP NER模块感到失望。 诺姆·乔姆斯基对这个世界感到沮丧

  • 我正在进行我目前的毕业项目,名为“土耳其实体识别”。当我使用人名和地点(有时地点可以是不同的语言,例如塔克西姆/伊斯坦布尔的希尔顿酒店)时,识别器应该捕捉到土耳其语单词。我需要在我的数据集中添加“Hotel”,该数据集充满了特定的位置标签,如Hotel、Restaurant或Mall。但说到组织名称标签。我需要找到一个关于乐队、产品、公司名称的好数据集,但我不知道如何找到或收集这个数据集 在斯坦福

  • 我现在正在使用一些NLP库(stanford和nltk)stanford我看到了演示部分,只是想问一下是否可以使用它来识别更多的实体类型。 因此,目前斯坦福大学的NER系统(如演示所示)可以将实体识别为个人(姓名)、组织或位置。但被认可的组织仅限于大学或一些大型组织。我想知道我是否可以使用它的API来编写更多实体类型的程序,比如如果我输入的是“Apple”或“Square”,它就可以识别出它是一家

  • 我正在编写一些代码来执行命名实体识别(NER),这对于英文文本来说非常好。然而,我希望能够将NER应用于任何语言。为此,我想1)识别文本的语言,然后2)将NER应用于识别的语言。对于第2步,我怀疑A)将文本翻译成英语,然后应用NER(英语),或B)将NER应用于所识别的语言。 以下是我目前掌握的代码。我想让NER在这种语言首次被识别后,为text2或任何其他语言工作: 有人有这方面的经验吗?非常感

  • 问题内容: 我正在寻找Java的简单但“足够好”的命名实体识别库(和字典),我正在处理电子邮件和文档并提取一些“基本信息”,例如:名称,地点,地址和日期 我一直在环顾四周,大多数似乎都是沉重的一面和完整的NLP项目。 有什么建议吗? 问题答案: 顺便说一句,我最近遇到了OpenCalais,它似乎具有我要照顾的功能。

  • 我尝试过很多NER工具(OpenNLP、斯坦福NER、LingPipe、Dbpedia Spotlight等)。 但我一直回避的是一个基于地名录/词典的NER系统,在该系统中,我的自由文本与预定义实体名称列表匹配,并返回可能的匹配项。 这样我就可以拥有各种列表,如PERSON、ORGANIZATION等。我可以动态更改列表并获得不同的提取。这将大大减少训练时间(因为它们中的大多数都基于最大熵模型,