我想训练用于提取人名的模型(NER系统的一部分),但我想使这个模型无大小写(我的意思是,该模型不会考虑字母大小写,大写字母和小写字母之间没有区别),因为我有嘈杂的文本。
那么训练步骤中是否有任何参数可以做到这一点,或者任何其他方式?
如果你必须使用OpenNLP,我想你可以在无案例训练数据上训练新模型。在培训新模型之前,只需获取现有的任何培训数据(带有适当的注释等),并将所有内容小写即可。
或者,如果你可以使用斯坦福NER而不是OpenNLP,你可以使用斯坦福NER预先培训的无案例英语模型:http://nlp.stanford.edu/software/CRF-NER.shtml#Models
无论你走哪条路,请记住,使用无壳模型会降低准确性。
我刚开始使用OpenNLP。我需要创建一个简单的训练模型来识别名称实体。
我发现很难创建自己的openNLP模型。谁能告诉我,如何拥有自己的模型。培训应该如何进行。 输入应该是什么,输出模型文件将存储在哪里。
我正在尝试为多个实体训练自定义NER模型。以下是示例训练数据: 方法采用字符串参数。这个参数有什么用途?还有,我如何为多个实体(例如,在我的例子中,,,)训练一个模型 }
我正在研究为一名日本人创建训练数据。 想知道我是否需要预先标记训练数据,或者是否有办法在模型创建期间指定标记器? 在下面的示例中,日语没有任何空格: 这对培训模型有用吗?还是我需要提供标记化的培训句子?
我试图使用官方OpenNLP网站手册示例来训练一个新模型,以下是示例: 问题出在2º线上, 帮我说:不赞成。改用PlainTextByLineStream(InputStreamFactory,Charset)。但是我不知道如何使用这个构造函数。我想举一个例子,使用同一个语料库文件使用这个未弃用的构造函数。 我已经编写了下一段代码,使用opennlp帮助和两种使用train方法的方法,不推荐的和建
我一直在尝试与斯坦福核心NLP合作。我希望训练我自己的NER模型。从论坛上的SO和官网上描述了如何使用一个属性文件来实现这一点。我将如何通过API实现它?。 怎么做