我正在研究为一名日本人创建训练数据。
想知道我是否需要预先标记训练数据,或者是否有办法在模型创建期间指定标记器?
在下面的示例中,日语没有任何空格:
<START:person> Pierre Vinken <END> 61 years old will join the board as a nonexecutive director Nov. 29 .
<START:person> Pierre Vinken <END> は11月29日、非執行取締役として理事に就任する。
这对培训模型有用吗?还是我需要提供标记化的培训句子?
https://www.rondhuit.com/apache-opennlp-1-9-0-ja-ner.html
我发现这个链接对你有用。有一个预培训的日语NRE,你可以下载
这方面的文档有点难找到,但OpenNLP希望训练数据预先标记化,请参见此处:
数据可以转换为OpenNLP名称查找器训练格式。每行一句话。其他一些格式也可用。句子必须标记化,并包含标记实体的跨距。
这也可以从你给出的英语例子中推断出来,因为在最后一个句号之前有一个空格。通常,CRF培训数据通常是预先标记的,因为这使得跨软件包的评估更容易。
一旦句子被标记化,OpenNLP就可以很好地用于日语,因为它并不真正关心字符串是什么。
我想使用Apache OpenNLP为我的母语乌尔都语训练NER模型。我已经准备好了中的训练数据。制作训练模型(. bin)的下一步是什么,就像我们在模型下载部分的OpenNLP站点上找到的那样。
我刚开始使用OpenNLP。我需要创建一个简单的训练模型来识别名称实体。
我想训练用于提取人名的模型(NER系统的一部分),但我想使这个模型无大小写(我的意思是,该模型不会考虑字母大小写,大写字母和小写字母之间没有区别),因为我有嘈杂的文本。 那么训练步骤中是否有任何参数可以做到这一点,或者任何其他方式?
OpenNLP中的NER培训是否有“最佳”标记化?我注意到OpenNLP提供了一个最大熵标记器,允许您基于经过训练的模型进行标记。我还注意到OpenNLP提供了一个简单的标记器。如果我在运行时使用与训练模型相同的标记器,那么使用哪个标记器重要吗? 我宁愿在我的应用程序中使用简单的标记器。
我想训练自己的自定义模型。我可以从哪里开始? 我使用这个样本数据来训练一个模型: 基本上,我想从给定的输入中找出一些无意义的文本。 我尝试了opennlp开发文档中给出的以下示例代码,但出现了错误:Model与name finder不兼容!
我正在尝试使用OpenNLP对发票进行分类。根据它的描述,我将它分为两类。我已经建立了一个包含20K描述的培训文件,并将每个描述标记到正确的类中。 培训数据如下所示(第一列是代码,我将其用作类,第二列是发票描述): 使用OpenNLP的Document分类器,我实现了98.5%的正确率。但是,为了提高效率,我取了错误的分类文档并用它来扩展训练数据。 例如,当我第一次运行它时,“MOTONETA I