当前位置: 首页 > 软件库 > 程序开发 > 中文分词库 >

FoolNLTK

中文处理工具包
授权协议 Apache
开发语言 Python
所属分类 程序开发、 中文分词库
软件类型 开源软件
地区 国产
投 递 者 孙文康
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

FoolNLTK

中文处理工具包

特点

  • 可能不是最快的开源中文分词,但很可能是最准的开源中文分词

  • 基于BiLSTM模型训练而成

  • 包含分词,词性标注,实体识别, 都有比较高的准确率

  • 用户自定义词典

Install

pip install foolnltk

使用说明

分词

import fool

text = "一个傻子在北京"
print(fool.cut(text))
# ['一个', '傻子', '在', '北京']

命令行分词

python -m fool [filename]

用户自定义词典

词典格式格式如下,词的权重越高,词的长度越长就越越可能出现, 权重值请大于1

难受香菇 10
什么鬼 10
分词工具 10
北京 10
北京天安门 10

加载词典

import fool
fool.load_userdict(path)
text = "我在北京天安门看你难受香菇"
print(fool.cut(text))
# ['我', '在', '北京天安门', '看', '你', '难受香菇']

删除词典

fool.delete_userdict();

词性标注

import fool

text = "一个傻子在北京"
print(fool.pos_cut(text))
#[('一个', 'm'), ('傻子', 'n'), ('在', 'p'), ('北京', 'ns')]

实体识别

import fool 

text = "一个傻子在北京"
words, ners = fool.analysis(text)
print(ners)
#[(5, 8, 'location', '北京')]

注意

  • 暂时只在Python3 Linux 平台测试通过

  • foolnltk是一个基于深度学习的中文分词工具 1、特点: 基于BiLSTM模型训练而成 包含分词、词性标注、实体识别,都有比较高的准确率 用户定义词典 知乎网址:https://www.zhihu.com/search?type=content&q=FoolNLTK%E7%AE%80%E4%BB%8B git 网址:https://github.com/rockyzhengwu/FoolNLT

  • FoolNLTK — 作者号称“可能不是最快的开源中文分词,但很可能是最准的开源中文分词”。 这个开源工具包基于BiLSTM模型训练而成,功能包含分词,词性标注,实体识别。并支持用户自定义词典,可训练自己的模型及批量处理文本。 1.准备 开始之前,你要确保Python和pip已经成功安装在电脑上,如果没有,可以访问这篇文章:超详细Python安装指南 进行安装。 如果你用Python的目的是数据分

  • 1.前言 可能不是最快的开源中文分词,但很可能是最准的开源中文分词 基于BiLSTM模型训练而成 包含分词,词性标注,实体识别, 都有比较高的准确率 用户自定义词典 2. 安装 安装foolnltk之前,电脑必须先安装tensorflow,且 tensorflow的版本不能高于2.0, 如果高于则必须先 uninstalll, 然后在安装1.X版本的。 我用的python 3.x, 具体如下: t

  • FoolNTLK的使用 简介 NLTK(自然语言处理工具包)可以说是五花八门,但是,用户wu.zheng开源的这个使用双向LSTM构建的中文处理工具包FoolNLTK,不仅可以实现分词、词性标注和命名实体识别,同时还能使用用户自定义字典加强分词的效果。该工具包Github官方地址,不过,最近的一次维护已经是一年前了。该工具包有Java版本,Pyhton版本后端使用TensorFlow。 工具包特点

  • FoolNLTK是一个使用双向 LSTM 构建的中文处理工具包,该工具不仅可以实现分词、词性标注和命名实体识别,同时还能使用用户自定义字典加强分词的效果。 中文处理工具包 GitHub 地址:https://github.com/rockyzhengwu/FoolNLTK 本文中应用了FoolNLTK,对三体的第一部中的命名实体进行了分析,统计了相关人物,相关企业和相关组织在文中出现的次数占比。

  • 原文链接: python3 FoolNLTK 自然语言处理 分词 上一篇: neo4j 导入数据的优化 下一篇: Python3 豆瓣登录并评论,保存登录状态 github https://github.com/rockyzhengwu/FoolNLTK 特点 可能不是最快的开源中文分词,但很可能是最准的开源中文分词 基于 BiLSTM模型 训练而成 包含分词,词性标注,实体识别, 都有比较高的准

  • FoolNLTK 中文处理工具包 GitHub 用户开源了一个使用双向 LSTM 构建的中文处理工具包,该工具不仅可以实现分词、词性标注和命名实体识别,同时还能使用用户自定义字典加强分词的效果。 特点 可能不是最快的开源中文分词,但很可能是最准的开源中文分词 基于BiLSTM模型训练而成 包含分词,词性标注,实体识别, 都有比较高的准确率 用户自定义词典 可训练自己的模型 批量处理 依赖关系:(W

  • 个人接触的分词器 安装 调用 jieba“结巴”中文分词:做最好的 Python 中文分词组件https://github.com/fxsjy/jieba 清华大学THULAC:一个高效的中文词法分析工具包 https://github.com/thunlp/THULAC-Python FoolNLTK可能不是最快的开源中文分词,但很可能是最准的开源中文分词 https://github.com/

  • 中文分词工具比较 6大中文分词器测试(jieba、FoolNLTK、HanLP、THULAC、nlpir、ltp) 哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba 个人接触的分词器 安装 调用 jieba“结巴”中文分词:做最好的 Python 中文分词组件https://github.com/fxsjy/jieba THULAC清华大学:一个高效的中文词法分析工具包 ht

  • 中文处理FoolNLTK 这是一个中文处理工具,提供BiLSTM来分词。 特性,基于BiLSTM模型来训练、准确度高、可用户自定义字典、 支持自训练、允许batch处理、 速度不是最快的,但接近市场上的大部分开源工具。 依赖:python3 安装: pip install foolnltk 使用: python -m fool [filename] 用户可自定义字典,格式如下 难受香菇 10 什么

  • 注意不是 pip-conda install fool 而是 pip-conda install foolnltk 使用 import fool 依赖包 absl-py-0.8.1 astor-0.8.0 foolnltk-0.1.6 gast-0.2.2 google-pasta-0.1.7 grpcio-1.24.1 keras-applications-1.0.8 keras-prep

  • python 中文分词 工具包,如jieba,pkuseg,hanNLP ,下面介绍另外一种新的中文分词工具包foolnltk FoolNLTK — 作者号称“可能不是最快的开源中文分词,但很可能是最准的开源中文分词”。 这个开源工具包基于BiLSTM模型训练而成,功能包含分词,词性标注,实体识别。并支持用户自定义词典,可训练自己的模型及批量处理文本。 如何安装: pip install fool

 相关资料
  • 介绍 逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。 Hutool针对此格式,参考FastCSV项目做了对CSV文件读写的实现(Hutool实现完全独立,不依赖第三方) CsvUtil是CSV工具类,主要封装了两个方法: getReader 用于对CSV文件读取 getWriter

  • 由于Eclipse的资源文件编辑器不支持将中文信息转换成“\uxxxx”格式的UCS2编码,因此,不能使用Eclipse自带的资源文件编辑器来编辑中文信息。除了直接在资源文件中输入“\uxxxx”格式的内容外,还可以采用如下的三种方法减少输入中文信息的工作量: 1. 使用native2ascii.exe命令 native2ascii.exe文件是JDK发行包中带的一个命令,该文件可以在<JDK安装

  • 十二、后处理工具 随着 PostCSS 的不断完善,各种插件如雨后春笋般的涌现出来,其中不乏一些很优秀的插件。 面向未来的 CSS Autoprefixer 根据 caniuse 的数据自动增加前缀,解放双手的利器(??? 推荐? ) postcss-cssnext 支持大量浏览器未实现的标准特性(CSS 变量,嵌套等)(?? 推荐? ) 格式化工具 stylefmt 支持 CSS、SCSS 等多

  • 预处理工具 不同的 CSS 预处理工具有着不同的特性、功能以及语法。编码习惯应当根据使用的预处理工具进行扩展, 以适应其特有的功能。推荐在使用 SCSS 时遵守以下指导。 将嵌套深度限制在1级。对于超过2级的嵌套,给予重新评估。这可以避免出现过于详实的 CSS 选择器。 避免大量的嵌套规则。当可读性受到影响时,将之打断。推荐避免出现多于20行的嵌套规则出现。 始终将@extend语句放在声明块的第

  • 本文向大家介绍Java中JSON处理工具类使用详解,包括了Java中JSON处理工具类使用详解的使用技巧和注意事项,需要的朋友参考一下 本文实例为大家分享了JSON处理工具类的具体代码,供大家参考,具体内容如下 以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持呐喊教程。

  • 功能介绍        地理编码指将结构化内容转换为经纬度坐标,逆地理编码指将经纬度坐标转换成结构化地址。使用该功能模块,可以快速批量把Excel文件内的大量地址转换为经纬度信息,或者实现反查。        当前功能模块使用高德接口。由于地理编码与逆地理编码需要使用高德API接口,而API接口日请求次数有限,公共API KEY无法满足大批量请求,使用自己申请的高德KEY可以解决该问题,因此需要申