当前位置: 首页 > 知识库问答 >
问题:

如何使用OpenNLP根据其类别标记文本?

东方化
2023-03-14

我想根据它所属的类别标记文本...

例如

“离合器和齿轮使用微芯片监控”-

“此处用于监测氢气水平的软件”-

如何使用openNLP或其他NLP引擎实现这一点。

我的作品
我尝试了NER模型,但它需要大量的训练语料库,而我没有?

我的需要

是否有任何现成的训练语料库可用于NER或分类(它必须包含科学和工程单词)...?

共有1个答案

韩单弓
2023-03-14

如果要为整个句子创建一组类标签,则需要使用Doccat库。使用Doccat,你会得到每个文本块的prob分布。使用doccat,您的样本将产生如下结果:

“离合器和齿轮使用微芯片监控”-

有了doocat,你就会失去关键词-

至于NER,OpenNLP有一个名为Modelbuilder的插件,可以帮助您。它旨在加快创建NER模型建筑。你可以为每个类别创建一个文件/列表,其中包含你能想到的尽可能多的术语,然后创建一个包含大量句子的文件,然后使用插件使用种子术语和句子文件创建一个NER模型。请参阅我之前用代码示例描述的这篇文章。你必须从SVN上下载插件。

OpenNLP:无法识别外来名称

 类似资料:
  • 我在R中得到的POS标记文本形式如下: 身份证 ..... 我想检索它已标记的单词,例如,而不是带有所有值的列“type”,因为单词检索实际单词。我可以使用scan_tokenizer,但当有“不是”之类的形式时,问题就出现了,POS标记器将其分为“is”和“not”,这很好,但scan_tokenizer不会这样标记,它只是将其保持在“is't”。有人能帮我检索R已标记并用于POS标记的单词吗?

  • 我正在尝试创建一个HTML页面,在其中它应该打印项目名称(在div容器内),点击一个按钮到下面的段落,条件是-它应该只打印那些类名为“active”和父id为“selected”的项目。 我试过这么做,这是我的代码- null null 对于上面的代码,预期的输出应该是- 项目列表: ex1 item2 ex3 item1 注意:您可以使用JavaScript和JQuery 请帮我做这件事。提前道

  • 我想在我的列表中实现部分。我有一个任务列表。列表有一个自定义适配器,它扩展了回收器视图滑动适配器,因为我已经实现了对回收器视图的滑动手势。 现在,任务列表与已完成和待处理的任务一起显示。每个列表项都有一个复选框,显示任务已完成或挂起。 如果选中复选框,则任务完成,反之亦然。现在我想在这篇文章中用页眉做两个部分。一个用于已完成的任务,另一个用于待完成的任务。 所以完成的任务应该显示在完成的部分中,反

  • 编辑1:主要的问题是在训练完一个NER模型后,我将它应用到令牌上。因此,它不会识别“轮滑”,因为在代币中,它们以“轮滑”和“滑冰”的形式出现,而NER模型现在无法识别这个爱好。

  • 我正在尝试使用Apache OpenNLP API创建一个标记器。我已经从他们的网站中提取了代码,但在Tokenize类中,以下代码行出现了“不兼容类型”错误: Tokenize Tokenizer=new TokenizerME(模型); 有人知道这个错误的原因吗?因为看起来他们不应该不兼容? 这是主要类: 这是具有错误的Tokenize类:

  • 在某些语言(例如越南语)中,一些词汇由多个单词组成。因此,一些包含多个单词的标记可以被标记,而不仅仅是使用空格。 我有以下意见: 预期产出: 训练数据我_连接需要在一个令牌中粘在一起的单词: 这是我用来训练的命令行 带参数 但是,输出不能在一个标记中连接多个单词,但它被空格拆分。 我运行以获取输出的命令 我应该如何处理我们的配置参数中的训练数据,以训练每个标记都有多个单词的标记器?