当前位置: 首页 > 知识库问答 >
问题:

spaCy代币。标签uu完整列表

唐昊焜
2023-03-14

令牌的官方文档。spaCy中的标签如下:

一个细粒度的、更详细的标签,表示单词类和令牌的一些基本形态信息。这些标签主要设计为后续模型的良好功能,尤其是语法解析器。它们依赖于语言和树状库。标记者被训练来预测这些细粒度的标签,然后使用映射表将它们简化为粗粒度的. pos标签。

但它没有列出所有可用的标签和每个标签的解释。我在哪里能找到它?


共有3个答案

申屠健
2023-03-14

这是标签列表:

TAG_MAP = [
    ".",        
    ",",        
    "-LRB-",    
    "-RRB-",    
    "``",       
    "\"\"",     
    "''",       
    ",",        
    "$",        
    "#",        
    "AFX",      
    "CC",       
    "CD",       
    "DT",       
    "EX",       
    "FW",       
    "HYPH",     
    "IN",       
    "JJ",       
    "JJR",      
    "JJS",      
    "LS",       
    "MD",       
    "NIL",      
    "NN",       
    "NNP",      
    "NNPS",     
    "NNS",   
    "PDT",   
    "POS",   
    "PRP",   
    "PRP$",  
    "RB",    
    "RBR",   
    "RBS",   
    "RP",    
    "SP",    
    "SYM",   
    "TO",    
    "UH",    
    "VB",    
    "VBD",  
    "VBG",  
    "VBN",  
    "VBP",  
    "VBZ",  
    "WDT",  
    "WP",   
    "WP$",  
    "WRB",  
    "ADD",  
    "NFP",   
    "GW",    
    "XX",    
    "BES",   
    "HVS",   
    "_SP",   
]
郎仰岳
2023-03-14

标记的可用值。标记是特定于语言的。这里的语言,我不是指英语或葡萄牙语,我指的是“en_core_web_sm”或“pt_core_news_sm”。换句话说,它们是特定于语言模型的,并且在TAG_映射中定义,TAG_映射是可定制和可训练的。如果您不自定义它,它将是该语言的默认标记映射。

在写这封信的时候,斯帕西。io/models列出了所有经过预培训的模型及其标签方案。

现在,解释一下。如果您正在使用英语或德语文本,那么您很幸运!您可以使用spacy.explain()或在github上访问其词汇表以获取完整列表。如果您正在使用其他语言,token.pos_值始终是通用依赖项的值,并且无论如何都可以工作。

最后,如果您正在使用其他语言,为了获得标签的完整解释,您必须在模型页面中列出的源代码中查找您感兴趣的模型。例如,对于葡萄牙语,我必须跟踪用于训练模型的葡萄牙语UD Bosque语料库中标记的解释。

龚联
2023-03-14

最后我在spaCy的源代码:glossary中找到了它。皮耶。这个链接解释了不同标签的含义。

 类似资料:
  • 通过示例来学习 RxJS 操作符 RxJS 操作符的完整列表,每个操作符都有着清晰的解释、相关资源和可执行的示例。 更喜欢按操作符类型进行分类? 内容 (按字母顺序) audit auditTime buffer bufferCount bufferTime :star: bufferToggle bufferWhen catch / catchError :star: combineAll co

  • 我正在用Java FX开发应用程序。在这个特定的窗口中,我使用了BorderPane。当按下按钮时,下面提供的代码应该显示在BorderPane的中心区域。 代码正在运行。按下按钮时,代码中的详细信息将显示在中心区域。但问题是两个标签内容都没有完全显示。我将提供一个屏幕截图。 那么,为什么标签的内容没有完全显示?如何使其完全可见?

  • 核心配置 权限 消息 会话 站点 静态文件 核心设置和主题索引 警告 当改变设置的时候你一定要小心,尤其当默认值是一个非空元组或者一个字典的时候,比如 MIDDLEWARE_CLASSES 和 STATICFILES_FINDERS. 确保组件符合Django的特性,你想使用的话。 核心配置 这里是一些Django的核心设置和它们的默认值。由contrib apps提供的设置,它的主题索引在下面列

  • 以下是完整的用户代理字符串检测脚本,包括检测呈现引擎、平台、Windows 操作系统、移动设备和游戏系统。 var client = function() { //呈现引擎 var engine = {ie: 0,gecko: 0,webkit: 0,khtml: 0,opera: 0,//完整的版本号ver: null }; //浏览器 var browser = {//主要浏览器ie: 0,f

  • 如题,如果想用Java处理一段带有html标签的字符串。 要求: ①如果只存在后半部分标签,不存在前半部分标签,就将后半部分标签删除。 ②如果只存在前半部分标签,不存在后半部分标签,就将前半部分标签删除。 例如下面这段: 平明后的</u> 标签被我故意删除了;洛阳前的<u>标签被我故意删除了。 有什么办法可以删除这些不完整的标签,最好还能保留标签内容的? 不是提取标签内容,是将不完整的标签删除。

  • 下面是代码的味道:https://scastie.scala-lang.org/bQMGrAKgRoOFaK1lwCy04g 我有两个JSON APIendpoint。首先是项目。cgi以以下格式返回项目对象列表 表示项目没有借款人。 其次,用户。cgi,返回查询参数id指定的用户 API可能不好,但我必须处理它。现在在Scala中,我想使用这个漂亮的数据模型 我还有以下用于执行HTTP请求的方法