中文处理FoolNLTK
这是一个中文处理工具,提供BiLSTM来分词。
特性,基于BiLSTM模型来训练、准确度高、可用户自定义字典、
支持自训练、允许batch处理、
速度不是最快的,但接近市场上的大部分开源工具。
依赖:python3
安装:
pip install foolnltk
使用:
python -m fool [filename]
用户可自定义字典,格式如下
难受香菇 10
什么鬼 10
加载自定义字典;
fool.load_userdict(path)
删除自定义字典;
fool.delete_userdict();
样例:
1、词性分析
import fool
text = ["一个傻子在北京"]
print(fool.pos_cut(text))
#[[('一个', 'm'), ('傻子', 'n'), ('在', 'p'), ('北京', 'ns')]]
2、实体识别
import fool
text = ["一个傻子在北京","你好啊"]
words, ners = fool.analysis(text)
print(ners)
#[[(5, 8, 'location', '北京')]]