我已经成功地使用OpenNLP进行文档分类,并且能够从训练过的样本中提取名称并使用正则表达式。
我想知道是否也可以根据名字(或者更一般地说,主语)在句子中的位置来提取名字?
例如。而不是使用先验已知的具体名称进行培训,例如Travel to
这是基于上下文的学习,Opennlp已经做到了这一点。你必须用适当的和更多的例子来训练它,以获得好的结果。
例如,当我们的句子中有教授X
时,Opennlp训练了模型。bin
将输出X
作为名称,而当X
出现在前面没有教授的句子中时,它可能不会将输出X
作为名称。
根据它的文档,给出15000句训练数据,你可以期待良好的结果。
我正在试用OpenNLP句子检测工具。文本在一个文件-para3中。txt。内容: 我使用以下命令运行此命令: 我得到如下输出: 理想情况下,我会看到三句话作为输出: 现在,如果我尝试其他句子,其中“句号”或“句号”出现,句子检测就会发生。一个人可能会猜到文本中有3个句子,但是如何通过OpenNLP完成呢?NLP的哪些工具可以在这里提供帮助???句子检测的下一个层次是什么?
OpenNLP API中句子检测类背后使用的逻辑是什么?是: 基于“”进行检测或 最长的空白修剪字符序列或 还有别的 有人能解释一下吗? 另外:解析API中的解析是如何完成的,即使用的逻辑是什么?
我正在使用ApacheOpenNLP库。我正在做一个项目,需要用不同的语言执行几个NLP任务,其中俄语是一个非常重要的任务。然而,我不懂俄语,也找不到任何适用于俄语的OpenNLP模型。 因此,我可以可靠地执行句子检测的唯一方法是在俄语文本上训练句子检测器并生成一个我稍后将使用的模型。我必须分析的文本非常具体,并且不够笼统,无法创建有效的模型。 因此,我想问是否有人能为我提供一份俄语参考文本,分为
我试图使用官方OpenNLP网站手册示例来训练一个新模型,以下是示例: 问题出在2º线上, 帮我说:不赞成。改用PlainTextByLineStream(InputStreamFactory,Charset)。但是我不知道如何使用这个构造函数。我想举一个例子,使用同一个语料库文件使用这个未弃用的构造函数。 我已经编写了下一段代码,使用opennlp帮助和两种使用train方法的方法,不推荐的和建
我使用组块来标记数据,并从文本中获取位置。最初,我尝试从next中提取名词短语,当我们使用名词短语名称(也被称为名词短语)时,它无法使用。然后我转移到核心nlp的位置,我试着运行下面的代码 InputStream inputStreamTokenizer=new FileInputStream("文本文档中的D:\project\关系提取\Libraray\解析/en-token.bin");To