我使用OpenNLP Java API进行句子标记化,它使用空格字符来标记句子,并拆分每个单词。
有没有什么方法可以让我跳过一些特定单词的分词或标记化。
例如在句子中。“一只敏捷的棕色狐狸跳过懒狗”。OpenNLP将句子拆分/标记为
一只
快速
棕色
狐狸
跳过
懒惰的
狗
我想跳过单词“Quick brown Fox”和“Lazy Dog”的标记化,因此预期的输出将是
一只
快速的棕色狐狸
跳过
懒狗
一个想法是,既然你似乎想跳过名词短语,那就是使用SentenceChunker来识别名词短语。您可以在句子组块中使用从标记化器返回的相同的跨距/标记,然后根据组块类型调整标记数组。看看这个
如何识别openNLP组块中的PP-Tags/NP-Tags/VP-Tags?
编辑1:主要的问题是在训练完一个NER模型后,我将它应用到令牌上。因此,它不会识别“轮滑”,因为在代币中,它们以“轮滑”和“滑冰”的形式出现,而NER模型现在无法识别这个爱好。
然后跳过用@wip和@test标记的场景。 所以,我想知道,是否可以跳过单个标签中的两个或多个标签,即第1点提到的标签?
我在R中得到的POS标记文本形式如下: 身份证 ..... 我想检索它已标记的单词,例如,而不是带有所有值的列“type”,因为单词检索实际单词。我可以使用scan_tokenizer,但当有“不是”之类的形式时,问题就出现了,POS标记器将其分为“is”和“not”,这很好,但scan_tokenizer不会这样标记,它只是将其保持在“is't”。有人能帮我检索R已标记并用于POS标记的单词吗?
问题内容: 我正在使用NLTK来分析一些经典文本,并且遇到麻烦按句子标记文本的麻烦。例如,这是我从 Moby Dick 获得的摘录的内容: 考虑到梅尔维尔(Melville)的语法有些陈旧,我不希望在这里达到完美,但是NLTK应该能够处理终端双引号和标题,例如“ Mrs”。但是,由于令牌生成器是无监督训练算法的结果,所以我不知道该如何进行修补。 有人建议使用更好的句子标记器吗?我更喜欢可以破解的简
问题内容: 我的本地计算机上有一个数据库,我想将数据导入主机上的数据库。这两个数据库的是相同的,相同的,等等。 当我从本地数据库通过该表并通过我的主机上的phpmyadmin 通过该表时,会弹出一个错误消息,告诉我存在重复的条目并停止了整个操作。 如何通过phpmyadmin导入数据,跳过重复的条目,并在流程结束时显示重复的列表? 我可以做的一个解决方案是在主机上调用数据库中主键的所有值,并在导入
我正在尝试训练opennlp词性标记器,它会根据我的特定词汇在句子中标记单词。例如: 正常词性标注后: 句子:NodeManager/NNP失败/VBD to/TO start/VB the/DT server/NN 使用我的词性标注模型后: 句子:NodeManager/AGENT失败/其他到/其他启动/其他/其他服务器/对象 其中AGENT,OTHER,OBJECT是我定义的标签。 所以基本上