问题：

在OpenNLP中创建日本NER培训模型？

孟绪

2023-03-14

我正在研究为一名日本人创建训练数据。

想知道我是否需要预先标记训练数据，或者是否有办法在模型创建期间指定标记器？

在下面的示例中，日语没有任何空格：

<START:person> Pierre Vinken <END> 61 years old will join the board as a nonexecutive director Nov. 29 .

<START:person> Pierre Vinken <END> は11月29日、非執行取締役として理事に就任する。

这对培训模型有用吗？还是我需要提供标记化的培训句子？

共有2个答案

岳意蕴

2023-03-14

https://www.rondhuit.com/apache-opennlp-1-9-0-ja-ner.html

我发现这个链接对你有用。有一个预培训的日语NRE，你可以下载

鲜于煜祺

2023-03-14

这方面的文档有点难找到，但OpenNLP希望训练数据预先标记化，请参见此处：

数据可以转换为OpenNLP名称查找器训练格式。每行一句话。其他一些格式也可用。句子必须标记化，并包含标记实体的跨距。

这也可以从你给出的英语例子中推断出来，因为在最后一个句号之前有一个空格。通常，CRF培训数据通常是预先标记的，因为这使得跨软件包的评估更容易。

一旦句子被标记化，OpenNLP就可以很好地用于日语，因为它并不真正关心字符串是什么。

类似资料：

如何在OpenNLP中培训“乌尔都语”的NER模型？

我想使用Apache OpenNLP为我的母语乌尔都语训练NER模型。我已经准备好了中的训练数据。制作训练模型（. bin）的下一步是什么，就像我们在模型下载部分的OpenNLP站点上找到的那样。
如何在OpenNLP中创建良好的NER训练模型？

我刚开始使用OpenNLP。我需要创建一个简单的训练模型来识别名称实体。
在openNLP中训练NER的无案例模型

我想训练用于提取人名的模型（NER系统的一部分），但我想使这个模型无大小写（我的意思是，该模型不会考虑字母大小写，大写字母和小写字母之间没有区别），因为我有嘈杂的文本。那么训练步骤中是否有任何参数可以做到这一点，或者任何其他方式？
OpenNLP中的NER培训是否有“最佳”标记化？

OpenNLP中的NER培训是否有“最佳”标记化？我注意到OpenNLP提供了一个最大熵标记器，允许您基于经过训练的模型进行标记。我还注意到OpenNLP提供了一个简单的标记器。如果我在运行时使用与训练模型相同的标记器，那么使用哪个标记器重要吗？我宁愿在我的应用程序中使用简单的标记器。
如何培训定制模型OPENNLP？

我想训练自己的自定义模型。我可以从哪里开始？我使用这个样本数据来训练一个模型：基本上，我想从给定的输入中找出一些无意义的文本。我尝试了opennlp开发文档中给出的以下示例代码，但出现了错误：Model与name finder不兼容！
OpenNLP文档分类培训

我正在尝试使用OpenNLP对发票进行分类。根据它的描述，我将它分为两类。我已经建立了一个包含20K描述的培训文件，并将每个描述标记到正确的类中。培训数据如下所示（第一列是代码，我将其用作类，第二列是发票描述）：使用OpenNLP的Document分类器，我实现了98.5%的正确率。但是，为了提高效率，我取了错误的分类文档并用它来扩展训练数据。例如，当我第一次运行它时，“MOTONETA I

在OpenNLP中创建日本NER培训模型？

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档