当前位置: 首页 > 工具软件 > xmnlp > 使用案例 >

nlp 中文文本纠错_GitHub - Jvwke/xmnlp: A Lightweight Chinese Natural Language Processing Toolkit,提供中文分词, 中...

嵇丰
2023-12-01

xmnlp

小明NLP —— 轻量级中文自然语言处理工具

A Lightweight Chinese Natural Language Processing Toolkit.

功能

中文分词 & 词性标注

支持繁體

支持自定义词典

文本纠错

文本摘要 & 关键词提取

情感分析

文本转拼音

安装使用

支持环境

Linux / Mac os (window 未测试)

python2 / python3(推荐)

安装

git clone https://github.com/SeanLee97/xmnlp.git

cd /path/to/xmnlp

pip install -r requirements.txt

python setup.py install

依赖库

numpy

cPickle #(python2.7)

算法

中文分词:

构建DAG图

动态规划查找,综合正反向(正向加权反向输出)求得DAG最大概率路径

使用了SBME语料训练了一套 HMM + Viterbi 模型,解决未登录词问题

文本纠错: bi-gram + levenshtein

文本摘要: textrank

情感分析: naive bayes

使用文档

支持两种方式调用

通过XmNLP实例对象的方式, 特点:方便使用系统停用词,只需XmNLP(stopword=True) 即可开启

通过方法直接调用,特点: 快捷方便

分词

example 1

from xmnlp import XmNLP

doc = """自然语言处理: 是人工智能和语言学领域的分支学科。

在这此领域中探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。

自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。"""

xm = XmNLP(doc)

xm.set_userdict('/path/to/userdict.txt')

print(xm.seg(hmm=True))

'''

xm  = XmNLP()

xm.set_userdict('/path/to/userdict.txt')

print(xm.seg(doc, hmm=True))

'''

example 2

import xmnlp as xm

doc = """自然语言处理: 是人工智能和语言学领域的分支学科。

在这此领域中探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。

自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。"""

xm.set_userdict('/path/to/userdict.txt')

print(xm.seg(doc, hmm=True))

result: ['自然语言', '处理', ':', '是', '人工智能', '和', '语言学', '领域', '的', '分支', '学科', '。', '在', '这此', '领域', '中', '探讨', '如何', '处理', '及', '运用', '自然语言', ';', '自然语言', '认知', '则', '是', '指让', '电脑', '“', '懂', '”', '人类', '的', '语言', '。', '自然语言', '生成', '系统', '把', '计算机', '数据', '转化', '为', '自然语言', '。', '自然语言', '理解', '系统', '把', '自然语言', '转化', '为', '计算机程序', '更', '易于', '处理', '的', '形式', '。']

词性标注

example 1

from xmnlp import XmNLP

doc = """自然语言处理: 是人工智能和语言学领域的分支学科。

在这此领域中探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。

自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。"""

xm = XmNLP(doc)

xm.set_userdict('/path/to/userdict.txt')

print(list(xm.tag()))

'''

xm  = XmNLP()

xm.set_userdict('/path/to/userdict.txt')

print(xm.tag(doc, hmm=True))

'''

example 2

import xmnlp as xm

xm.set_userdict('/path/to/userdict.txt')

doc = """自然语言处理: 是人工智能和语言学领域的分支学科。

在这此领域中探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。

自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。"""

print(list(xm.tag(doc)))

result: [('自然语言', 'l'), ('处理', 'v'), (':', 'un'), ('是', 'v'), ('人工智能', 'n'), ('和', 'c'), ('语言学', 'n'), ('领域', 'n'), ('的', 'uj'), ('分支', 'n'), ('学科', 'n'), ('。', 'un'), ('在', 'p'), ('这此', 'un'), ('领域', 'n'), ('中', 'f'), ('探讨', 'v'), ('如何', 'r'), ('处理', 'v'), ('及', 'c'), ('运用', 'vn'), ('自然语言', 'l'), (';', 'un'), ('自然语言', 'l'), ('认知', 'v'), ('则', 'd'), ('是', 'v'), ('指让', 'un'), ('电脑', 'n'), ('“', 'un'), ('懂', 'v'), ('”', 'un'), ('人类', 'n'), ('的', 'uj'), ('语言', 'n'), ('。', 'un'), ('自然语言', 'l'), ('生成', 'v'), ('系统', 'n'), ('把', 'p'), ('计算机', 'n'), ('数据', 'n'), ('转化', 'v'), ('为', 'p'), ('自然语言', 'l'), ('。', 'un'), ('自然语言', 'l'), ('理解', 'v'), ('系统', 'n'), ('把', 'p'), ('自然语言', 'l'), ('转化', 'v'), ('为', 'p'), ('计算机程序', 'n'), ('更', 'd'), ('易于', 'v'), ('处理', 'v'), ('的', 'uj'), ('形式', 'n'), ('。', 'un')]

文本纠错

example 1

from xmnlp import XmNLP

doc = """这理风景绣丽,而且天汽不错,我的心情各外舒畅!"""

xm = XmNLP(doc)

print(xm.checker())

'''

xm  = XmNLP()

print(xm.checker(doc))

'''

example 2

import xmnlp as xm

doc = """这理风景绣丽,而且天汽不错,我的心情各外舒畅!"""

print(xm.checker())

result: 这里风景秀丽,而且天气不错,我的心情格外舒畅!

文本摘要

example 1

from xmnlp import XmNLP

doc = """自然语言处理: 是人工智能和语言学领域的分支学科。

在这此领域中探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。

自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。"""

xm  = XmNLP(doc, stopword=True) # stopword=True 使用系统停用词

xm.set_stopword('/path/to/user_stopword.txt') # 使用用户自定义停用词

# keyword

print(xm.keyword())

# keyphrase

pirnt(xm.keyphrase())

'''

xm  = XmNLP()

# keyword

print(xm.keyword(doc))

# keyphrase

pirnt(xm.keyphrase(doc))

'''

example 2

import xmnlp as xm

xm.set_stopword('/path/to/user_stopword.txt') # 使用用户自定义停用词

doc = """自然语言处理: 是人工智能和语言学领域的分支学科。

在这此领域中探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。

自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。"""

# keyword

print(xm.keyword(doc))

# keyphrase

pirnt(xm.keyphrase(doc))

result:

keyphrase:

自然语言理解系统自然语言转化计算机程序易于形式

自然语言生成系统计算机数据转化自然语言

自然语言认知指让电脑懂人类语言

这此领域中探讨自然语言

自然语言人工智能语言学领域分支学科

keyword:

[('自然语言', 2.5960552414414391), ('系统', 1.3424759005594451), ('转化', 1.2404934273839832), ('领域', 1.13500044179745), ('语言', 1.0865431295952139)]

情感分析

example 1

from xmnlp import XmNLP

doc = """这件衣服的质量也太差了吧!一穿就烂!"""

xm  = XmNLP(doc)

print(xm.sentiment())

'''

xm  = XmNLP()

print(xm.sentiment(doc))

'''

example 2

import xmnlp as xm

doc = """这件衣服的质量也太差了吧!一穿就烂!"""

print(xm.sentiment())

自定义模型

支持用户使用自己的语料训练模型,训练例子在examples 的trainer_*中

训练语料

更多

Reference:

本项目采用的数据主要有:

人民日报语料

结巴分词分词数据

snownlp情感分析语料

本项目受到以下项目的启发

License

 类似资料: