斯坦福大学自然语言处理组最新上线了新的Stanza系统,以Python包的方式发布,提供预先训练好的66种自然语言的模型。
介绍在这里:https://stanfordnlp.github.io/stanza/index.html#about
Stanza没有提供直接的语言模型下载通道,本文说明如何解决使用download()下载异常的问题。
=========================
Stanza模型下载一览表
一、获取模型链接
import stanza
stanza.download('en')
二、模型存放位置
Windows系统:C:\Users\*Administrator*你的用户名\stanza_resources
三、模型的使用
模型下载完成后是压缩文件,需先解压。形如:
C:\Users\*Administrator*你的用户名\stanza_resources\en\tokenize
使用download()命令会自动解压。
四、已知模型的下载链接
英语
http://nlp.stanford.edu/software/stanza/1.0.0/en/default.zip
汉语
http://nlp.stanford.edu/software/stanza/1.0.0/zh-hans/default.zip
=================
Windows下pip安装stanza时可能会出现错误,需自行先安装PyTorch。
看官网的说明:https://pytorch.org/
或者使用以下命令:
pip install torch===1.4.0 torchvision===0.5.0 -f https://download.pytorch.org/whl/torch_stable.html
===================
五、模型文件路径的自定义
可以将模型文件存放在自定义路径下,下载时使用stanza.download模块的第二个参数,形如:
stanza.download('en', "D:/LanguageModel/stanza_resources")
加载时使用stanza.Pipeline模块的第二个参数,形如:
nlp = stanza.Pipeline('en', "D:/LanguageModel/stanza_resources")