当前位置: 首页 > 知识库问答 >
问题:

Apache OpenNLP名称实体查找程序识别错误单词

顾斌
2023-03-14

我试图使用ApacheOpenNLP来识别文本中的日期实体。我创建了一个小java程序,该程序使用以下格式的一系列日期生成标记:

<START:date> {dd/MM/yyyy} <END> .

每个标签都是OpenNLP定义格式的句子。

我生成了大约40万条条目,并对模型进行了培训。培训结束后,我试图通过命令行使用TokenNameFinder来验证一切是否正常,但对于每个单词,我都键入finder,并将其标识为日期实体。例如,当我打字时:

today is 17/04/2017

我得到的是:

<START:date> today <END> <START:date> is <END> <START:date> 17/04/2017 <END>  

我想可能是因为除了日期之外我没有提供任何单词,所以我尝试在标签前后使用一个随机字符串,但训练时间太长了。

谁能告诉我这是我的训练集的问题还是我必须做的其他事情?

共有1个答案

史和泰
2023-03-14

为了训练机器学习取名器模型,你需要一个尽可能接近运行时数据的训练语料库。如果你的约会对象表现良好,不需要机器学习,你可以试试基于正则表达式的one RegexNameFinder。

如果培训要花很长时间,要么培训太大,要么你几乎没有空行来标记文档的结尾。有关详细信息,请参阅命名实体识别文档。

 类似资料:
  • 我正在进行我目前的毕业项目,名为“土耳其实体识别”。当我使用人名和地点(有时地点可以是不同的语言,例如塔克西姆/伊斯坦布尔的希尔顿酒店)时,识别器应该捕捉到土耳其语单词。我需要在我的数据集中添加“Hotel”,该数据集充满了特定的位置标签,如Hotel、Restaurant或Mall。但说到组织名称标签。我需要找到一个关于乐队、产品、公司名称的好数据集,但我不知道如何找到或收集这个数据集 在斯坦福

  • 我有以下wlst脚本: 结果是错误: WLS:/离线 我怎样才能解决这个问题?

  • 问题内容: 我正在寻找Java的简单但“足够好”的命名实体识别库(和字典),我正在处理电子邮件和文档并提取一些“基本信息”,例如:名称,地点,地址和日期 我一直在环顾四周,大多数似乎都是沉重的一面和完整的NLP项目。 有什么建议吗? 问题答案: 顺便说一句,我最近遇到了OpenCalais,它似乎具有我要照顾的功能。

  • 我正在编写一些代码来执行命名实体识别(NER),这对于英文文本来说非常好。然而,我希望能够将NER应用于任何语言。为此,我想1)识别文本的语言,然后2)将NER应用于识别的语言。对于第2步,我怀疑A)将文本翻译成英语,然后应用NER(英语),或B)将NER应用于所识别的语言。 以下是我目前掌握的代码。我想让NER在这种语言首次被识别后,为text2或任何其他语言工作: 有人有这方面的经验吗?非常感

  • 安装了带有pip(不是包管理器)的MkDocs 安装了n个带有pip的MkDocs主题 更新了mkdocs.yaml以添加: 我错过了什么?

  • 我正在使用OpenNLP模型进行名称实体识别。 我正在传递句子,我想在其中识别单词。Open NLP需要一个String[]变量,因此我将String拆分为用空格分隔的单词。 我面临着识别日期的问题。例如,如果字符串包含日期:2012年1月7日,我将字符串拆分为单词,“7”、“1”和“2012”将被分隔为3个不同的单词。虽然它们被识别为日期,但这3个不同的标记对我来说没有意义进行进一步处理。我怎么