当前位置: 首页 > 知识库问答 >
问题:

如何通过OpenNLP中的NER识别印度名字?

松高歌
2023-03-14

我正在使用OpenNLP模型进行名称实体识别,但问题是它只会识别基于美国和英国的名称(外国名称),因此我需要识别印度名称。

怎么可能?

共有1个答案

曹德明
2023-03-14

NER解决方案往往是特定于领域的,使用硬编码单词列表作为信号(特征)和/或命名实体的内部字母结构。

英国/美国的名字彼此相似,也与其他欧洲名字相似,因为许多流行的美国名字和姓氏来自非英国的欧洲移民。印度人的名字有很大不同,常用的名字/姓氏列表和培训数据语料库通常不包含太多或任何特定于印度人的数据

为了解决您的问题,您需要根据适合您特定领域的数据训练一个专门的NER模型。

 类似资料:
  • 我计划使用命名实体识别(NER)技术从给定文本中识别人名(大部分是印度名字)。我已经从斯坦福NLP探索了基于CRF的NER模型,但是它在识别印度名字方面并不十分准确。因此,我决定通过监督培训创建自己的自定义NER模型。我对如何使用斯坦福大学的NER CRF创建自己的NER模型有一个大致的想法,但创建一个带有手动注释的大型训练语料库是我想避免的事情,因为这对个人来说是一项巨大的工作,其次,从印度不同

  • 问题内容: 好的,我有以下代码来训练来自OpenNLP的NER标识符 我不知道我是否做错了什么,如果缺少什么,但是分类不起作用。我认为train.txt错误。 *发生 *的错误 是所有令牌仅被分类为一种类型。 我的train.txt数据类似于以下示例,但是条目的变化和数量更多。另一件事是,我每次都从文本中逐字逐句地查找,而不是所有标记。 有人可以证明我做错了吗? 问题答案: 您的训练数据不正确。

  • 我目前正在从事一个java web服务器项目,该项目需要使用自然语言处理,特别是实体识别(Entity Recognition,NER)。 我在java中使用OpenNLP,因为添加自定义训练数据很容易。它工作得很好。 然而,我还需要能够提取实体内部的实体(嵌套命名实体识别)。我试着在OpenNLP中这样做,但我遇到了解析错误。所以我猜OpenNLP很遗憾不支持嵌套实体。 下面是一个我需要解析的示

  • 我刚开始使用openNLP来识别名字。我使用的是open NLP附带的模型(en-ner-person.bin)。我注意到,虽然它可以识别美国、英国和欧洲的名字,但它不能识别印度或日本的名字。我的问题是(1)是否已经有模型,我可以用来识别外国名字(2)如果没有,那么我相信我将需要生成新的模型。在这种情况下,是否有一个可供我使用的copora?

  • 我尝试过很多NER工具(OpenNLP、斯坦福NER、LingPipe、Dbpedia Spotlight等)。 但我一直回避的是一个基于地名录/词典的NER系统,在该系统中,我的自由文本与预定义实体名称列表匹配,并返回可能的匹配项。 这样我就可以拥有各种列表,如PERSON、ORGANIZATION等。我可以动态更改列表并获得不同的提取。这将大大减少训练时间(因为它们中的大多数都基于最大熵模型,

  • 我已经下载了OpenNLP工具,在为我的bash文件添加了正确的路径后,我能够让命令行工具运行,但我不知道如何让api文件与我的IDE(Netbeans)一起工作 对于命令行工具,我将指向/bin目录的路径。/lib目录中有四个jar文件:jwnl-1.3.3。jar,opennlp-maxent-3.0.3。jar,opennlp-tools-1.5.3。jar,opennlp-uima-1.5