xmnlp

轻量级中文自然语言处理工具
授权协议 Apache-2.0
开发语言 Python
所属分类 神经网络/人工智能、 自然语言处理
软件类型 开源软件
地区 国产
投 递 者 钮巴英
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

xmnlp 是一个轻量级中文自然语言处理工具,提供中文分词, 词性标注, 命名体识别,情感分析,文本纠错,文本转拼音,文本摘要,偏旁部首等功能。

功能概览

  • 中文简体词法分析 (RoBERTa + CRF finetune)
    • 分词
    • 词性标注
    • 命名体识别
  • 中文拼写检查 (Detector + Corrector SpellCheck)
  • 文本摘要 & 关键词提取 (Textrank)
  • 情感分析 (RoBERTa finetune)
  • 文本转拼音 (Trie)
  • 汉字偏旁部首 (HashMap)

安装

1. 安装库

方式 1

安装最新版 xmnlp

pip install -U xmnlp

国内用户可以加一下 index-url

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -U xmnlp

方式 2

git clone https://github.com/SeanLee97/xmnlp.git
cd /path/to/xmnlp
pip install -r requirements.txt
python setup.py install

2. 下载模型

下载地址

请下载 xmnlp 对应版本的模型,如果不清楚 xmnlp 的版本,可以执行python -c 'import xmnlp; print(xmnlp.__version__)' 查看版本

模型名称 适用版本 下载地址
xmnlp-onnx-models-v3.zip v0.3.2 飞书 [o4bA] | 百度网盘 [9g7e]

* 模型已切换至 onnx, 先前 tensorflow 模型已不可用,请下载最新版本模型

* 如果下载地址失效了,烦请提 issue 反馈

模型设置

提供两种设置方式

方式 1:配置环境变量(推荐)

下载好的模型解压后,可以设置环境变量指定模型地址。以 Linux 系统为例,设置如下

export XMNLP_MODEL=/path/to/xmnlp-models

方式 2:通过函数设置

在调用 xmnlp 前设置模型地址,如下

import xmnlp

xmnlp.set_model('/path/to/xmnlp-models')

* 上述 /path/to/ 只是占位用的,配置时请替换成模型真实的目录地址。

  • 为了方便工作学习,于是乎借鉴了一些项目并结合自己想法用 python 写了个 nlp 工具包 — xmnlp 小明NLP目前支持的功能 中文分词,词性标注 文本纠错 情感分析 文本转拼音 主要算法 中文分词,词性标注: DAG HMM + Viterbi新词发现 文本纠错: bi-gram + levenshtein 更多请关注Github项目:xmnlp 转载于:https://juejin.i

  • xmnlp 小明NLP —— 轻量级中文自然语言处理工具 A Lightweight Chinese Natural Language Processing Toolkit. 功能 中文分词 & 词性标注 支持繁體 支持自定义词典 文本纠错 文本摘要 & 关键词提取 情感分析 文本转拼音 安装使用 支持环境 Linux / Mac os (window 未测试) python2 / python3

  • awesome_nlp_tools 整理常用的自然语言处理工具(包括Python接口),如Stanford NLP、NLTK、Spacy、NLPIR、Pyltp、HanLP、Jieba。 Collates commonly used natural language processing tools (including Python interfaces) such as Stanford NL

 相关资料
  • 主要内容 前言 课程列表 推荐学习路线 数学基础初级 程序语言能力 机器学习简介 自然语言学习初级 数学和机器学习知识补充 自然语言处理中级 自然语言处理专项领域学习 前言 我们要求把这些课程的所有Notes,Slides以及作者强烈推荐的论文看懂看明白,并完成所有的老师布置的习题,而推荐的书籍是不做要求的,如果有些书籍是需要看完的,我们会进行额外的说明。 课程列表 课程 机构 参考书 Notes

  • 知识图谱 接口: nlp_ownthink 目标地址: https://ownthink.com/ 描述: 获取思知-知识图谱的接口, 以此来查询知识图谱数据 限量: 单次返回查询的数据结果 输入参数 名称 类型 必选 描述 word str Y word="人工智能" indicator str Y indicator="entity"; Please refer Indicator Info

  • PyTorch 自然语言处理(Natural Language Processing with PyTorch 中文版)

  • 这是一本关于自然语言处理的书。所谓“自然语言”,是指人们日常交流使用的语言,如英语,印地语,葡萄牙语等。

  • 先来一段前戏 机器学习的过程是训练模型和使用模型的过程,训练就是基于已知数据做统计学习,使用就是用统计学习好的模型来计算未知的数据。 机器学习分为有监督学习和无监督学习,文本分类也分为有监督的分类和无监督的分类。有监督就是训练的样本数据有了确定的判断,基于这些已有的判断来断定新的数据,无监督就是训练的样本数据没有什么判断,完全自发的生成结论。 无论监督学习还是无监督学习,都是通过某种算法来实现,而

  • 自然语言处理怎么学? 先学会倒着学,倒回去看上面那句话:不管三七二十一先用起来,然后再系统地学习 nltk是最经典的自然语言处理的python库,不知道怎么用的看前几篇文章吧,先把它用起来,最起码做出来一个词性标注的小工具 自然语言处理学什么? 这门学科的知识可是相当的广泛,广泛到你不需要掌握任何知识就可以直接学,因为你不可能掌握它依赖的全部知识,所以就直接冲过去吧。。。 话说回来,它到底包括哪些

  • 自然语言处理之序列模型 - 小象学院 解决 NLP 问题的一般思路 这个问题人类可以做好么? - 可以 -> 记录自己的思路 -> 设计流程让机器完成你的思路 - 很难 -> 尝试从计算机的角度来思考问题 NLP 的历史进程 规则系统 正则表达式/自动机 规则是固定的 搜索引擎 “豆瓣酱用英语怎么说?” 规则:“xx用英语怎么说?” => translate(XX, English)

  • 自然语言处理(NLP)是指使用诸如英语之类的自然语言与智能系统通信的AI方法。 当您希望像机器人这样的智能系统按照您的指示执行,当您想要听取基于对话的临床专家系统的决定等时,需要处理自然语言。 NLP领域涉及使计算机使用人类使用的自然语言来完成有用的任务。 NLP系统的输入和输出可以是 - Speech 书面文字 NLP的组成部分 在本节中,我们将了解NLP的不同组件。 NLP有两个组成部分。 组