当前位置: 首页 > 知识库问答 >
问题:

在openNLP中使用标记器

阎唯
2023-03-14

我在R中得到的POS标记文本形式如下:


身份证

.....

我想检索它已标记的单词,例如,而不是带有所有值的列“type”,因为单词检索实际单词。我可以使用scan_tokenizer,但当有“不是”之类的形式时,问题就出现了,POS标记器将其分为“is”和“not”,这很好,但scan_tokenizer不会这样标记,它只是将其保持在“is't”。有人能帮我检索R已标记并用于POS标记的单词吗?

谢谢

共有1个答案

潘雅珺
2023-03-14

你为什么不使用伊利诺伊州的POS标记器?它易于使用和可视化:

http://cogcomp.cs.illinois.edu/page/software_view/3

http://cogcomp.cs.illinois.edu/demo/pos/?id=4

 类似资料:
  • 我正在尝试训练opennlp词性标记器,它会根据我的特定词汇在句子中标记单词。例如: 正常词性标注后: 句子:NodeManager/NNP失败/VBD to/TO start/VB the/DT server/NN 使用我的词性标注模型后: 句子:NodeManager/AGENT失败/其他到/其他启动/其他/其他服务器/对象 其中AGENT,OTHER,OBJECT是我定义的标签。 所以基本上

  • 编辑1:主要的问题是在训练完一个NER模型后,我将它应用到令牌上。因此,它不会识别“轮滑”,因为在代币中,它们以“轮滑”和“滑冰”的形式出现,而NER模型现在无法识别这个爱好。

  • 我正在使用OpenNLP java将字符串转换为标记。但是,我发现圆括号无法正确识别。 我正在使用的代码:' 例如,字符串是“像我这样的人正在关闭新闻”。结果是: 未识别“are”的左侧圆括号。此外,例如,“401(k)”转换为“401(k”和“)”。 我还尝试了“SimpleTokenizer”课程。它可以把括号分开,但也可以把“头版”和“头版”分开,这不是我想要的。 我想知道是否有解决办法?

  • 有关于OpenNLP中解析器标记含义的文档吗?我知道POS标记类型遵循树库约定,但不幸的是,我没有找到任何关于解析器标记的信息,例如“SBAR”等。 这个留档是存在于某个地方还是我必须自己弄清楚?

  • 我想根据它所属的类别标记文本... 例如 “离合器和齿轮使用微芯片监控”- “此处用于监测氢气水平的软件”- 如何使用openNLP或其他NLP引擎实现这一点。 我的作品 我尝试了NER模型,但它需要大量的训练语料库,而我没有? 我的需要 是否有任何现成的训练语料库可用于NER或分类(它必须包含科学和工程单词)...?

  • 我使用OpenNLP Java API进行句子标记化,它使用空格字符来标记句子,并拆分每个单词。 有没有什么方法可以让我跳过一些特定单词的分词或标记化。 例如在句子中。“一只敏捷的棕色狐狸跳过懒狗”。OpenNLP将句子拆分/标记为 一只 快速 棕色 狐狸 跳过 懒惰的 狗 我想跳过单词“Quick brown Fox”和“Lazy Dog”的标记化,因此预期的输出将是 一只 快速的棕色狐狸 跳过