问题：

Apache OpenNLP名称实体查找程序识别错误单词

顾斌

2023-03-14

我试图使用ApacheOpenNLP来识别文本中的日期实体。我创建了一个小java程序，该程序使用以下格式的一系列日期生成标记：

<START:date> {dd/MM/yyyy} <END> .

每个标签都是OpenNLP定义格式的句子。

我生成了大约40万条条目，并对模型进行了培训。培训结束后，我试图通过命令行使用TokenNameFinder来验证一切是否正常，但对于每个单词，我都键入finder，并将其标识为日期实体。例如，当我打字时：

today is 17/04/2017

我得到的是：

<START:date> today <END> <START:date> is <END> <START:date> 17/04/2017 <END>

我想可能是因为除了日期之外我没有提供任何单词，所以我尝试在标签前后使用一个随机字符串，但训练时间太长了。

谁能告诉我这是我的训练集的问题还是我必须做的其他事情？

共有1个答案

史和泰

2023-03-14

为了训练机器学习取名器模型，你需要一个尽可能接近运行时数据的训练语料库。如果你的约会对象表现良好，不需要机器学习，你可以试试基于正则表达式的one RegexNameFinder。

如果培训要花很长时间，要么培训太大，要么你几乎没有空行来标记文档的结尾。有关详细信息，请参阅命名实体识别文档。

类似资料：

命名实体识别（Ner）-组织名称数据库

我正在进行我目前的毕业项目，名为“土耳其实体识别”。当我使用人名和地点（有时地点可以是不同的语言，例如塔克西姆/伊斯坦布尔的希尔顿酒店）时，识别器应该捕捉到土耳其语单词。我需要在我的数据集中添加“Hotel”，该数据集充满了特定的位置标签，如Hotel、Restaurant或Mall。但说到组织名称标签。我需要找到一个关于乐队、产品、公司名称的好数据集，但我不知道如何找到或收集这个数据集在斯坦福
weblogic wlst查找服务名称错误

我有以下wlst脚本：结果是错误： WLS：/离线我怎样才能解决这个问题？
Java命名实体识别库

问题内容：我正在寻找Java的简单但“足够好”的命名实体识别库（和字典），我正在处理电子邮件和文档并提取一些“基本信息”，例如：名称，地点，地址和日期我一直在环顾四周，大多数似乎都是沉重的一面和完整的NLP项目。有什么建议吗？问题答案：顺便说一句，我最近遇到了OpenCalais，它似乎具有我要照顾的功能。
用于多种语言的名称实体识别（NER）

我正在编写一些代码来执行命名实体识别（NER），这对于英文文本来说非常好。然而，我希望能够将NER应用于任何语言。为此，我想1）识别文本的语言，然后2）将NER应用于识别的语言。对于第2步，我怀疑A）将文本翻译成英语，然后应用NER（英语），或B）将NER应用于所识别的语言。以下是我目前掌握的代码。我想让NER在这种语言首次被识别后，为text2或任何其他语言工作：有人有这方面的经验吗？非常感
错误-配置值：“theme”。错误：无法识别的主题名称：

安装了带有pip（不是包管理器）的MkDocs 安装了n个带有pip的MkDocs主题更新了mkdocs.yaml以添加: 我错过了什么？
OpenNLP时间和日期的名称实体识别模型

我正在使用OpenNLP模型进行名称实体识别。我正在传递句子，我想在其中识别单词。Open NLP需要一个String[]变量，因此我将String拆分为用空格分隔的单词。我面临着识别日期的问题。例如，如果字符串包含日期：2012年1月7日，我将字符串拆分为单词，“7”、“1”和“2012”将被分隔为3个不同的单词。虽然它们被识别为日期，但这3个不同的标记对我来说没有意义进行进一步处理。我怎么

Apache OpenNLP名称实体查找程序识别错误单词

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档