问题：

在OpenNLP中标记句子时如何跳过短语？

伊俊能

2023-03-14

我使用OpenNLP Java API进行句子标记化，它使用空格字符来标记句子，并拆分每个单词。

有没有什么方法可以让我跳过一些特定单词的分词或标记化。

例如在句子中。“一只敏捷的棕色狐狸跳过懒狗”。OpenNLP将句子拆分/标记为

一只
快速
棕色
狐狸
跳过
懒惰的
狗

我想跳过单词“Quick brown Fox”和“Lazy Dog”的标记化，因此预期的输出将是

一只
快速的棕色狐狸
跳过
懒狗

共有1个答案

傅穆冉

2023-03-14

一个想法是，既然你似乎想跳过名词短语，那就是使用SentenceChunker来识别名词短语。您可以在句子组块中使用从标记化器返回的相同的跨距/标记，然后根据组块类型调整标记数组。看看这个

如何识别openNLP组块中的PP-Tags/NP-Tags/VP-Tags？

类似资料：

如何在OpenNLP中训练标记器？

编辑1：主要的问题是在训练完一个NER模型后，我将它应用到令牌上。因此，它不会识别“轮滑”，因为在代币中，它们以“轮滑”和“滑冰”的形式出现，而NER模型现在无法识别这个爱好。
在运行cucumber场景时，如何在单个标记中跳过两个标记？

然后跳过用@wip和@test标记的场景。所以，我想知道，是否可以跳过单个标签中的两个或多个标签，即第1点提到的标签？
在openNLP中使用标记器

我在R中得到的POS标记文本形式如下：身份证 ..... 我想检索它已标记的单词，例如，而不是带有所有值的列“type”，因为单词检索实际单词。我可以使用scan_tokenizer，但当有“不是”之类的形式时，问题就出现了，POS标记器将其分为“is”和“not”，这很好，但scan_tokenizer不会这样标记，它只是将其保持在“is't”。有人能帮我检索R已标记并用于POS标记的单词吗？
如何调整NLTK句子标记器

问题内容：我正在使用NLTK来分析一些经典文本，并且遇到麻烦按句子标记文本的麻烦。例如，这是我从 Moby Dick 获得的摘录的内容：考虑到梅尔维尔（Melville）的语法有些陈旧，我不希望在这里达到完美，但是NLTK应该能够处理终端双引号和标题，例如“ Mrs”。但是，由于令牌生成器是无监督训练算法的结果，所以我不知道该如何进行修补。有人建议使用更好的句子标记器吗？我更喜欢可以破解的简
如何在phpmyadmin中导入时跳过重复记录

问题内容：我的本地计算机上有一个数据库，我想将数据导入主机上的数据库。这两个数据库的是相同的，相同的，等等。当我从本地数据库通过该表并通过我的主机上的phpmyadmin 通过该表时，会弹出一个错误消息，告诉我存在重复的条目并停止了整个操作。如何通过phpmyadmin导入数据，跳过重复的条目，并在流程结束时显示重复的列表？我可以做的一个解决方案是在主机上调用数据库中主键的所有值，并在导入
在opennlp中训练词性标记器

我正在尝试训练opennlp词性标记器，它会根据我的特定词汇在句子中标记单词。例如：正常词性标注后：句子：NodeManager/NNP失败/VBD to/TO start/VB the/DT server/NN 使用我的词性标注模型后：句子：NodeManager/AGENT失败/其他到/其他启动/其他/其他服务器/对象其中AGENT，OTHER，OBJECT是我定义的标签。所以基本上

在OpenNLP中标记句子时如何跳过短语？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档