当前位置: 首页 > 知识库问答 >
问题:

OpenNLP的解析器标记

郝昊东
2023-03-14

有关于OpenNLP中解析器标记含义的文档吗?我知道POS标记类型遵循树库约定,但不幸的是,我没有找到任何关于解析器标记的信息,例如“SBAR”等。

这个留档是存在于某个地方还是我必须自己弄清楚?

共有1个答案

裴成文
2023-03-14

请参阅宾夕法尼亚州树库标记集和树库注释指南

 类似资料:
  • 我正在使用OpenNLP java将字符串转换为标记。但是,我发现圆括号无法正确识别。 我正在使用的代码:' 例如,字符串是“像我这样的人正在关闭新闻”。结果是: 未识别“are”的左侧圆括号。此外,例如,“401(k)”转换为“401(k”和“)”。 我还尝试了“SimpleTokenizer”课程。它可以把括号分开,但也可以把“头版”和“头版”分开,这不是我想要的。 我想知道是否有解决办法?

  • 我在R中得到的POS标记文本形式如下: 身份证 ..... 我想检索它已标记的单词,例如,而不是带有所有值的列“type”,因为单词检索实际单词。我可以使用scan_tokenizer,但当有“不是”之类的形式时,问题就出现了,POS标记器将其分为“is”和“not”,这很好,但scan_tokenizer不会这样标记,它只是将其保持在“is't”。有人能帮我检索R已标记并用于POS标记的单词吗?

  • 我正在使用opennlp的Parse模型来解析一行输入,我的代码: 如果我的输入是p.toString显示,但p.toString显示 我怎样才能让它和p.show一样?

  • 我正在尝试训练opennlp词性标记器,它会根据我的特定词汇在句子中标记单词。例如: 正常词性标注后: 句子:NodeManager/NNP失败/VBD to/TO start/VB the/DT server/NN 使用我的词性标注模型后: 句子:NodeManager/AGENT失败/其他到/其他启动/其他/其他服务器/对象 其中AGENT,OTHER,OBJECT是我定义的标签。 所以基本上

  • 编辑1:主要的问题是在训练完一个NER模型后,我将它应用到令牌上。因此,它不会识别“轮滑”,因为在代币中,它们以“轮滑”和“滑冰”的形式出现,而NER模型现在无法识别这个爱好。

  • 我是opennlp新手,需要帮助来定制解析器 我已经使用了带有预训练模型的opennlp解析器en-pos-maxtent.bin用相应的语音部分标记新的原始英语句子,现在我想自定义标签。 例句:狗跳过墙。 使用en-pos-maxtent.bin进行POS标记后,结果将是 狗-NNP 跳跃-VBD 超过-在 The-DT wall-NN 但是我想训练我自己的模型并用我的自定义标签标记单词,例如