斯坦福大学Stanza的使用

上官扬

2023-12-01

斯坦福大学自然语言处理组最新上线了新的Stanza系统，以Python包的方式发布，提供预先训练好的66种自然语言的模型。

Stanza没有提供直接的语言模型下载通道，本文说明如何解决使用download()下载异常的问题。

=========================

Stanza模型下载一览表

一、获取模型链接

import stanza
stanza.download('en')

二、模型存放位置

Windows系统：C:\Users\*Administrator*你的用户名\stanza_resources

三、模型的使用

模型下载完成后是压缩文件，需先解压。形如：
C:\Users\*Administrator*你的用户名\stanza_resources\en\tokenize
使用download()命令会自动解压。

四、已知模型的下载链接

英语
http://nlp.stanford.edu/software/stanza/1.0.0/en/default.zip
汉语
http://nlp.stanford.edu/software/stanza/1.0.0/zh-hans/default.zip

=================

Windows下pip安装stanza时可能会出现错误，需自行先安装PyTorch。

看官网的说明：https://pytorch.org/

或者使用以下命令：

pip install torch===1.4.0 torchvision===0.5.0 -f https://download.pytorch.org/whl/torch_stable.html

===================

五、模型文件路径的自定义

可以将模型文件存放在自定义路径下，下载时使用stanza.download模块的第二个参数，形如：

stanza.download('en', "D:/LanguageModel/stanza_resources")

加载时使用stanza.Pipeline模块的第二个参数，形如：

nlp = stanza.Pipeline('en', "D:/LanguageModel/stanza_resources")