Stanza

斯坦福自然语言处理 Python 库
授权协议 Apache-2.0
开发语言 Python
所属分类 神经网络/人工智能、 自然语言处理
软件类型 开源软件
地区 不详
投 递 者 陶泳
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

Stanza 是斯坦福 NLP 组的官方 Python NLP(自然语言处理) 库。它支持在 60 多种语言上运行各种准确的自然语言处理工具,并支持从 Python 访问 Java Stanford CoreNLP 软

安装

pip

Stanza 支持 Python 3.6 或更高版本。建议通过 Python 包管理器 pip 安装 Stanza 

pip install stanza

如果当前安装了以前的版本stanza,请使用:

pip install stanza -U

Anaconda

要通过 Anaconda 安装 Stanza,请使用以下 conda 命令:

conda install -c stanfordnlp stanza

请注意,目前已通过 Anaconda 安装 Stanza 不适用于 Python 3.8。对于 Python 3.8,请使用 pip 安装。

从源代码

也可以从这个 git 仓库的源代码安装:

git clone https://github.com/stanfordnlp/stanza.git
cd stanza
pip install -e .

运行 Stanza

要运行您的第一个 Stanza 管道,只需在您的 Python 交互式解释器中执行以下步骤:

>>> import stanza
>>> stanza.download('en')       # This downloads the English models for the neural pipeline
>>> nlp = stanza.Pipeline('en') # This sets up a default neural pipeline in English
>>> doc = nlp("Barack Obama was born in Hawaii.  He was elected president in 2008.")
>>> doc.sentences[0].print_dependencies()

如果遇到requests.exceptions.ConnectionError,请尝试使用代理:

>>> import stanza
>>> proxies = {'http': 'http://ip:port', 'https': 'http://ip:port'}
>>> stanza.download('en', proxies=proxies)  # This downloads the English models for the neural pipeline
>>> nlp = stanza.Pipeline('en')             # This sets up a default neural pipeline in English
>>> doc = nlp("Barack Obama was born in Hawaii.  He was elected president in 2008.")
>>> doc.sentences[0].print_dependencies()
  • 斯坦福大学自然语言处理组最新上线了新的Stanza系统,以Python包的方式发布,提供预先训练好的66种自然语言的模型。 介绍在这里:https://stanfordnlp.github.io/stanza/index.html#about Stanza没有提供直接的语言模型下载通道,本文说明如何解决使用download()下载异常的问题。 ========================= S

  • 因为课程需要跑通NLP的基本任务,这里记录一下安装使用的过程、参考的官方文档以及我遇到的坑 英文文本见我的另一篇文章:NLTK+StanfordCoreNLP实现英文文本处理的基本任务 一、jieba jieba官方文档:https://github.com/fxsjy/jieba 完成以下任务: 分词 自定义词典 停用词 关键词提取 词性标注 import jieba import colle

  • 1. 简介 这篇博客介绍如何在stanza工具中修改设置device。由于stanza模型代码中只预留了设置cpu还是cuda,但是没有给出设置device的选项,这导致我们在多卡的情况下调用模型时不够灵活。所以本文对这一内容进行介绍。 原理很简单,把所有的.cuda()修改为.to(device)即可。此方法同样适用于其他开源项目。 2. 修改 pipeline/core.py中,修改: cla

  • xml stanza The Stanford NLP Group has long been an active player in natural language processing, particularly through their well-known CoreNLP Java toolkit. Until recently though, Stanford NLP has bee

 相关资料
  • 这是一本关于自然语言处理的书。所谓“自然语言”,是指人们日常交流使用的语言,如英语,印地语,葡萄牙语等。

  • 主要内容 前言 课程列表 推荐学习路线 数学基础初级 程序语言能力 机器学习简介 自然语言学习初级 数学和机器学习知识补充 自然语言处理中级 自然语言处理专项领域学习 前言 我们要求把这些课程的所有Notes,Slides以及作者强烈推荐的论文看懂看明白,并完成所有的老师布置的习题,而推荐的书籍是不做要求的,如果有些书籍是需要看完的,我们会进行额外的说明。 课程列表 课程 机构 参考书 Notes

  • 我正在注释和分析一系列文本文件。 pipeline.annotate方法每次读取文件时都会变得越来越慢。最终,我得到了一个OutOfMemoryError。 管道初始化一次: 然后,我使用相同的管道实例处理每个文件(如SO和斯坦福大学在其他地方推荐的)。 明确地说,我希望问题出在我的配置上。但是,我确信失速和内存问题发生在pipeline.annotate(file)方法上。 在处理每个文件后,我

  • 来自 PythonProgramming.net 的文章,欢迎阅读自然语言处理系列教程,使用 Python 的自然语言工具包 NLTK 模块。

  • 本书旨在介绍如何通过Python和NLTK实现自然语言处理。本书包括三个模块。模块1介绍文本挖掘/NLP任务中所需的所有预处理步骤,包括文本的整理和清洗、词性标注、对文本的结构进行语法分析、文本的分类等。 模块2讲述如何使用Python 3的NLTK 3进行文本处理,包括标记文本、替换和校正单词、创建自定义语料库、词性标注、提取组块、文本分类等。模块3讨论了如何通过Python掌握自然语言处理,包

  • 知识图谱 接口: nlp_ownthink 目标地址: https://ownthink.com/ 描述: 获取思知-知识图谱的接口, 以此来查询知识图谱数据 限量: 单次返回查询的数据结果 输入参数 名称 类型 必选 描述 word str Y word="人工智能" indicator str Y indicator="entity"; Please refer Indicator Info

  • PyTorch 自然语言处理(Natural Language Processing with PyTorch 中文版)

  • 我在使用Stanford pipeline(CoreNLP的最后一个版本)解析BNC时遇到了一个问题。 解析器只是停留在这个句子中,它甚至不会抛出错误。句子在web界面中得到正确的解析。 我尝试了标记器的选项,但没有结果。 我添加了我正在使用的命令行:java[...]edu.stanford.nlp.pipeline.stanfordCorenlp-注释器tokenize,ssplit,pos,