Stanza 是斯坦福 NLP 组的官方 Python NLP(自然语言处理) 库。它支持在 60 多种语言上运行各种准确的自然语言处理工具,并支持从 Python 访问 Java Stanford CoreNLP 软
Stanza 支持 Python 3.6 或更高版本。建议通过 Python 包管理器 pip 安装 Stanza
pip install stanza
如果当前安装了以前的版本stanza
,请使用:
pip install stanza -U
要通过 Anaconda 安装 Stanza,请使用以下 conda 命令:
conda install -c stanfordnlp stanza
请注意,目前已通过 Anaconda 安装 Stanza 不适用于 Python 3.8。对于 Python 3.8,请使用 pip 安装。
也可以从这个 git 仓库的源代码安装:
git clone https://github.com/stanfordnlp/stanza.git cd stanza pip install -e .
要运行您的第一个 Stanza 管道,只需在您的 Python 交互式解释器中执行以下步骤:
>>> import stanza >>> stanza.download('en') # This downloads the English models for the neural pipeline >>> nlp = stanza.Pipeline('en') # This sets up a default neural pipeline in English >>> doc = nlp("Barack Obama was born in Hawaii. He was elected president in 2008.") >>> doc.sentences[0].print_dependencies()
如果遇到requests.exceptions.ConnectionError
,请尝试使用代理:
>>> import stanza >>> proxies = {'http': 'http://ip:port', 'https': 'http://ip:port'} >>> stanza.download('en', proxies=proxies) # This downloads the English models for the neural pipeline >>> nlp = stanza.Pipeline('en') # This sets up a default neural pipeline in English >>> doc = nlp("Barack Obama was born in Hawaii. He was elected president in 2008.") >>> doc.sentences[0].print_dependencies()
斯坦福大学自然语言处理组最新上线了新的Stanza系统,以Python包的方式发布,提供预先训练好的66种自然语言的模型。 介绍在这里:https://stanfordnlp.github.io/stanza/index.html#about Stanza没有提供直接的语言模型下载通道,本文说明如何解决使用download()下载异常的问题。 ========================= S
因为课程需要跑通NLP的基本任务,这里记录一下安装使用的过程、参考的官方文档以及我遇到的坑 英文文本见我的另一篇文章:NLTK+StanfordCoreNLP实现英文文本处理的基本任务 一、jieba jieba官方文档:https://github.com/fxsjy/jieba 完成以下任务: 分词 自定义词典 停用词 关键词提取 词性标注 import jieba import colle
1. 简介 这篇博客介绍如何在stanza工具中修改设置device。由于stanza模型代码中只预留了设置cpu还是cuda,但是没有给出设置device的选项,这导致我们在多卡的情况下调用模型时不够灵活。所以本文对这一内容进行介绍。 原理很简单,把所有的.cuda()修改为.to(device)即可。此方法同样适用于其他开源项目。 2. 修改 pipeline/core.py中,修改: cla
xml stanza The Stanford NLP Group has long been an active player in natural language processing, particularly through their well-known CoreNLP Java toolkit. Until recently though, Stanford NLP has bee
这是一本关于自然语言处理的书。所谓“自然语言”,是指人们日常交流使用的语言,如英语,印地语,葡萄牙语等。
我正在注释和分析一系列文本文件。 pipeline.annotate方法每次读取文件时都会变得越来越慢。最终,我得到了一个OutOfMemoryError。 管道初始化一次: 然后,我使用相同的管道实例处理每个文件(如SO和斯坦福大学在其他地方推荐的)。 明确地说,我希望问题出在我的配置上。但是,我确信失速和内存问题发生在pipeline.annotate(file)方法上。 在处理每个文件后,我
主要内容 前言 课程列表 推荐学习路线 数学基础初级 程序语言能力 机器学习简介 自然语言学习初级 数学和机器学习知识补充 自然语言处理中级 自然语言处理专项领域学习 前言 我们要求把这些课程的所有Notes,Slides以及作者强烈推荐的论文看懂看明白,并完成所有的老师布置的习题,而推荐的书籍是不做要求的,如果有些书籍是需要看完的,我们会进行额外的说明。 课程列表 课程 机构 参考书 Notes
来自 PythonProgramming.net 的文章,欢迎阅读自然语言处理系列教程,使用 Python 的自然语言工具包 NLTK 模块。
本书旨在介绍如何通过Python和NLTK实现自然语言处理。本书包括三个模块。模块1介绍文本挖掘/NLP任务中所需的所有预处理步骤,包括文本的整理和清洗、词性标注、对文本的结构进行语法分析、文本的分类等。 模块2讲述如何使用Python 3的NLTK 3进行文本处理,包括标记文本、替换和校正单词、创建自定义语料库、词性标注、提取组块、文本分类等。模块3讨论了如何通过Python掌握自然语言处理,包
知识图谱 接口: nlp_ownthink 目标地址: https://ownthink.com/ 描述: 获取思知-知识图谱的接口, 以此来查询知识图谱数据 限量: 单次返回查询的数据结果 输入参数 名称 类型 必选 描述 word str Y word="人工智能" indicator str Y indicator="entity"; Please refer Indicator Info
PyTorch 自然语言处理(Natural Language Processing with PyTorch 中文版)
我在使用Stanford pipeline(CoreNLP的最后一个版本)解析BNC时遇到了一个问题。 解析器只是停留在这个句子中,它甚至不会抛出错误。句子在web界面中得到正确的解析。 我尝试了标记器的选项,但没有结果。 我添加了我正在使用的命令行:java[...]edu.stanford.nlp.pipeline.stanfordCorenlp-注释器tokenize,ssplit,pos,