当前位置: 首页 > 知识库问答 >
问题:

在OpenNLP中标记句子时如何跳过短语?

伊俊能
2023-03-14

我使用OpenNLP Java API进行句子标记化,它使用空格字符来标记句子,并拆分每个单词。

有没有什么方法可以让我跳过一些特定单词的分词或标记化。

例如在句子中。“一只敏捷的棕色狐狸跳过懒狗”。OpenNLP将句子拆分/标记为

一只
快速
棕色
狐狸
跳过
懒惰的

我想跳过单词“Quick brown Fox”和“Lazy Dog”的标记化,因此预期的输出将是

一只
快速的棕色狐狸
跳过
懒狗

共有1个答案

傅穆冉
2023-03-14

一个想法是,既然你似乎想跳过名词短语,那就是使用SentenceChunker来识别名词短语。您可以在句子组块中使用从标记化器返回的相同的跨距/标记,然后根据组块类型调整标记数组。看看这个

如何识别openNLP组块中的PP-Tags/NP-Tags/VP-Tags?

 类似资料:
  • 编辑1:主要的问题是在训练完一个NER模型后,我将它应用到令牌上。因此,它不会识别“轮滑”,因为在代币中,它们以“轮滑”和“滑冰”的形式出现,而NER模型现在无法识别这个爱好。

  • 然后跳过用@wip和@test标记的场景。 所以,我想知道,是否可以跳过单个标签中的两个或多个标签,即第1点提到的标签?

  • 我在R中得到的POS标记文本形式如下: 身份证 ..... 我想检索它已标记的单词,例如,而不是带有所有值的列“type”,因为单词检索实际单词。我可以使用scan_tokenizer,但当有“不是”之类的形式时,问题就出现了,POS标记器将其分为“is”和“not”,这很好,但scan_tokenizer不会这样标记,它只是将其保持在“is't”。有人能帮我检索R已标记并用于POS标记的单词吗?

  • 问题内容: 我正在使用NLTK来分析一些经典文本,并且遇到麻烦按句子标记文本的麻烦。例如,这是我从 Moby Dick 获得的摘录的内容: 考虑到梅尔维尔(Melville)的语法有些陈旧,我不希望在这里达到完美,但是NLTK应该能够处理终端双引号和标题,例如“ Mrs”。但是,由于令牌生成器是无监督训练算法的结果,所以我不知道该如何进行修补。 有人建议使用更好的句子标记器吗?我更喜欢可以破解的简

  • 问题内容: 我的本地计算机上有一个数据库,我想将数据导入主机上的数据库。这两个数据库的是相同的,相同的,等等。 当我从本地数据库通过该表并通过我的主机上的phpmyadmin 通过该表时,会弹出一个错误消息,告诉我存在重复的条目并停止了整个操作。 如何通过phpmyadmin导入数据,跳过重复的条目,并在流程结束时显示重复的列表? 我可以做的一个解决方案是在主机上调用数据库中主键的所有值,并在导入

  • 我正在尝试训练opennlp词性标记器,它会根据我的特定词汇在句子中标记单词。例如: 正常词性标注后: 句子:NodeManager/NNP失败/VBD to/TO start/VB the/DT server/NN 使用我的词性标注模型后: 句子:NodeManager/AGENT失败/其他到/其他启动/其他/其他服务器/对象 其中AGENT,OTHER,OBJECT是我定义的标签。 所以基本上