我是NLP领域的新手,正在使用OpenNLP 1.5
入门。
我在这里看了一些留档中给出的命令:https://opennlp.apache.org/documentation/manual/opennlp.html
(我正在使用命令行界面开始)
我使用已经可用的示例模型来试验不同的工具,最后决定创建一个自定义NER模型。
我遵循了上述链接中给出的说明。
将给出的例句复制到中。train
文件(我只是创建了一个具有该扩展名的新文件,并将内容粘贴到其中):
<START:person> Pierre Vinken <END> , 61 years old , will join the board as a nonexecutive director Nov. 29 .
Mr . <START:person> Vinken <END> is chairman of Elsevier N.V. , the Dutch publishing group .
我使用以下命令创建模型:
bin/opennlp TokenNameFinderTrainer -model en-ner-person2.bin -lang en -data en-ner-person2.train -encoding UTF-8
问题是,即使模型正在创建中,它似乎也无法正常工作。通过使用新创建的模型进行测试:bin/opennlp TokenNameFinder en-ner-person2。垃圾箱
但是当我输入Pierre Vinken
时,它没有被识别为一个人。我还尝试从具有完全相同内容的. txt
文件创建模型,但也失败了。
我做错了什么?
蒂娅。
简而言之,你不能指望统计模型只从两句话中学习。再加上14998,你就可以出发了。
培训数据应包含至少15000个句子,以创建执行wel的模型
CRF(Conditional Random Fields,条件随机场)就是这样的统计模型,它们确实需要大量的数据来找出游戏规则,它们并不是简单地“记住”在训练阶段看到的东西,所以即使你要求从测试集中得到一些东西,它们也可能无法提供答案。
我们有一个报告编写工具,我们正在尝试添加搜索功能。基本上,用户可以输入一个问题,并根据句子中的标准返回一份报告。我们正在尽可能地保持开放性,不需要特定的句子结构,这就是为什么我们想尝试OpenNLP-NER。 例如: “上季度的艺术出勤率是多少?” 标记为: 我们试着用不同的部门,不同的过滤器等提出不同的问题。。我们还没有达到15k,只有14.6k,所以我们还在努力。 就分析问题而言,这是问题的开
问题内容: 我已经创建了自己的NER模型与斯坦福大学“斯坦福大学NER”软件,并按照这些方向。 我知道CoreNLP按照以下顺序开箱即用地加载了三个NER模型: 我现在想将我的NER模型包括在上面的列表中,并先用NER模型标记文本。 我已经找到了关于该主题的两个以前问题,它们是“使用自定义NER模型的Stanford OpenIE[”和“为什么Stanford CoreNLP NER注释器默认加载
null 我发现了之前关于这个主题的两个StackOverflow问题,它们是“Stanford OpenIE使用定制的NER模型”和“为什么Stanford CoreNLP NER-annotator默认加载3个模型?” 这两个帖子都有很好的答案。答案的一般信息是,您必须在文件中编辑代码。 使用自定义NER模型的斯坦福OpenIE 是否需要修改或添加此代码到CoreNLP软件中的特定类文件中?
我正在尝试为多个实体训练自定义NER模型。以下是示例训练数据: 方法采用字符串参数。这个参数有什么用途?还有,我如何为多个实体(例如,在我的例子中,,,)训练一个模型 }
如果您是一位经验丰富的ML开发人员,而且ML Kit的预训练的模型不能满足您的需求,您可以通过ML Kit使用定 的TensorFlow Lite模型。 使用Firebase托管您的TensorFlow Lite模型或将其与您的应用程序打包在一起。然后,使用ML Kit SDK来使用您的自定义模型的最佳版本构建应用。如果您使用Firebase托管您的模型,ML Kit会自动更新您的用户的所用版本。
我正在尝试执行OpenNLP模型,我已经为我的自定义名称进行了培训。我执行以下命令来制作定制模型: OpenNLP TokenNameFinderTrainer-编码UTF-8-lang en-data c:\用户\nshah\桌面\en-ner-person.train-model en-ner-PERName.bin 我能够成功创建名为en-ner personName的模型。箱子 现在我正在