当前位置: 首页 > 知识库问答 >
问题:

如何使用标记化的句子作为Spacy的PoS标记器的输入?

虞承泽
2023-03-14

Spacy的pos-tagger非常方便,它可以直接标记原始句子。

import spacy  
sp = spacy.load('en_core_web_sm')  
sen = sp(u"I am eating")  

但我使用的是nltk中的标记器。那么,如何使用像['I'、'am'、'eating']这样的标记化句子,而不是用'I am eating'作为Spacy的标记呢?

顺便说一句,我在哪里可以找到详细的Spacy留档?我只能在官网链接上找到概述

谢谢

共有1个答案

范浩宕
2023-03-14

有两种选择:

>

  • 您可以在nltk标记器周围编写一个包装器,并使用它将文本转换为spaCy的Doc格式。然后覆盖nlp。标记器具有新的自定义功能。更多信息请点击此处:https://spacy.io/usage/linguistic-features#custom-标记器。

    直接从字符串列表生成文档,如下所示:

    doc=doc(nlp.vocab, word=[u"I", u"am", u"吃", u"."],空格=[True, True, False, False])

    定义空格是可选的——如果不定义,默认情况下每个单词后面都会有一个空格。这在使用例如doc时很重要。文本之后。更多信息请点击此处:https://spacy.io/usage/linguistic-features#own-注释

    [编辑]:请注意,nlpdoc是spaCy中的“标准”变量名,它们分别对应于代码中的变量spsen

  •  类似资料:
    • 问题内容: 我正在使用NLTK来分析一些经典文本,并且遇到麻烦按句子标记文本的麻烦。例如,这是我从 Moby Dick 获得的摘录的内容: 考虑到梅尔维尔(Melville)的语法有些陈旧,我不希望在这里达到完美,但是NLTK应该能够处理终端双引号和标题,例如“ Mrs”。但是,由于令牌生成器是无监督训练算法的结果,所以我不知道该如何进行修补。 有人建议使用更好的句子标记器吗?我更喜欢可以破解的简

    • 问题内容: 我想在python中使用wordnet lemmatizer,并且我了解到默认pos标记为NOUN,并且除非为pos标记明确指定为VERB,否则它不会为动词输出正确的引理。 我的问题是,为了准确地进行上述词素化,什么是最好的镜头? 我使用了pos标记,但是迷失了将树库pos标记集成到wordnet兼容pos标记中的信息。请帮忙 我得到了NN,JJ,VB,RB中的输出标签。如何将它们更改

    • 我想在python中使用wordnet lemmatizer,我了解到默认的pos标记是NOUN,并且它不会为动词输出正确的引理,除非pos标记明确指定为动词。 我的问题是什么是最好的镜头,以便准确地执行上述表达? 我使用做了pos标记,我迷失在将树库pos标记集成到wordnet兼容pos标记中。请帮助 我得到了NN、JJ、VB、RB中的输出标签。如何将这些更改为与wordnet兼容的标签? 我

    • 我正在用c#进行一个项目,我必须集成斯坦福pos tagger API,虽然我已经完成了,但是当我编译代码时,我得到了一个错误 stanford-postagger-3.6.0.dll中发生了类型edu.stanford.nlp.io.RuntimeIOExcure的异常,但用户代码中没有处理 其他信息:加载标记器模型时出错(可能缺少模型文件) 在我的代码中,此错误所指向的行是: 注意:我是如何安

    • 我是完全新的NLP的世界,我需要你的帮助开始标记阿拉伯语句子使用漂亮的斯坦福pos标签。 我已经安装了一个完整的版本,其中包含两个阿拉伯语培训的标签。 请指导我使用java和eclipse在阿拉伯语中应用此标记器, 我应该导入什么? 我该给模特们加些什么 处理阿拉伯语的函数和库 即使它不在训练集中,这个标记器也能给出正确的标记吗? 事实上,我已经浏览了斯坦福大学的官方网站,但它没有那么大的帮助 先

    • 问题内容: 我试图将整个段落输入到我的文字处理器中,然后先分成句子,然后再分成单词。 我尝试了以下代码,但它不起作用, 但是,这不起作用,并给我错误。那么,如何将段落标记为句子,然后再标记为单词? 一个示例段落: 这东西似乎使那只黑褐色的小狗感到吃惊和震惊,使他伤心。 他绝望地沉在孩子的脚下。当重击一声再加上幼稚的训诫时,他转过身来,用独特的方式握住了爪子。同时,他用耳朵和眼睛向孩子祈祷。 警告: