当前位置: 首页 > 知识库问答 >
问题:

OpenNLP中的NER培训是否有“最佳”标记化?

慎俊艾
2023-03-14

OpenNLP中的NER培训是否有“最佳”标记化?我注意到OpenNLP提供了一个最大熵标记器,允许您基于经过训练的模型进行标记。我还注意到OpenNLP提供了一个简单的标记器。如果我在运行时使用与训练模型相同的标记器,那么使用哪个标记器重要吗?

我宁愿在我的应用程序中使用简单的标记器。

共有1个答案

欧盛
2023-03-14

对于大多数应用程序来说,标记器的质量不是很重要,只要在培训和培训后使用相同的标记器,就可以了。

然而,唯一确定的方法是尝试不同的标记器并比较结果——对于某些应用程序,好的标记器和好的标记器之间的差异可能很重要。

 类似资料:
  • 我正在研究为一名日本人创建训练数据。 想知道我是否需要预先标记训练数据,或者是否有办法在模型创建期间指定标记器? 在下面的示例中,日语没有任何空格: 这对培训模型有用吗?还是我需要提供标记化的培训句子?

  • 我想使用Apache OpenNLP为我的母语乌尔都语训练NER模型。我已经准备好了中的训练数据。制作训练模型(. bin)的下一步是什么,就像我们在模型下载部分的OpenNLP站点上找到的那样。

  • 我正在尝试使用OpenNLP对发票进行分类。根据它的描述,我将它分为两类。我已经建立了一个包含20K描述的培训文件,并将每个描述标记到正确的类中。 培训数据如下所示(第一列是代码,我将其用作类,第二列是发票描述): 使用OpenNLP的Document分类器,我实现了98.5%的正确率。但是,为了提高效率,我取了错误的分类文档并用它来扩展训练数据。 例如,当我第一次运行它时,“MOTONETA I

  • 我想训练用于提取人名的模型(NER系统的一部分),但我想使这个模型无大小写(我的意思是,该模型不会考虑字母大小写,大写字母和小写字母之间没有区别),因为我有嘈杂的文本。 那么训练步骤中是否有任何参数可以做到这一点,或者任何其他方式?

  • 我正在尝试训练opennlp词性标记器,它会根据我的特定词汇在句子中标记单词。例如: 正常词性标注后: 句子:NodeManager/NNP失败/VBD to/TO start/VB the/DT server/NN 使用我的词性标注模型后: 句子:NodeManager/AGENT失败/其他到/其他启动/其他/其他服务器/对象 其中AGENT,OTHER,OBJECT是我定义的标签。 所以基本上

  • 编辑1:主要的问题是在训练完一个NER模型后,我将它应用到令牌上。因此,它不会识别“轮滑”,因为在代币中,它们以“轮滑”和“滑冰”的形式出现,而NER模型现在无法识别这个爱好。