当前位置: 首页 > 软件库 > 程序开发 > 中文分词库 >

kcws

基于深度学习的分词系统
授权协议 Apache
开发语言 C/C++ Python
所属分类 程序开发、 中文分词库
软件类型 开源软件
地区 国产
投 递 者 越风史
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

这是一个基于深度学习的分词系统和语料项目。

背景

97.5%准确率的深度学习中文分词(字嵌入+Bi-LSTM+CRF)

构建

  1. 安装好bazel代码构建工具,clone下来tensorflow项目代码,配置好(./configure)

  2. clone 本项目地址到tensorflow同级目录,切换到本项目代码目录,运行./configure

  3. 编译后台服务

bazel build //kcws/cc:seg_backend_api

训练

1. 关注“待字闺中”公众号 回复 kcws 获取语料下载地址

2. 解压语料到一个目录

3. 切换到代码目录,运行:

pyton kcws/train/process_anno_file <语料目录> chars_for_w2v.txt
使用word2vec 训练 chars_for_w2v (注意-binary 0),得到字嵌入结果vec.txt
bazel build kcws/train:generate_training
./bazel-bin/kcws/train/generate_training vec.txt <语料目录> all.txt
python kcws/train/filter_sentence.py all.txt (得到train.txt , test.txt)

4. 安装好tensorflow,切换到kcws代码目录,运行:

python kcws/train/train_cws_lstm.py --word2vec_path vec.txt --train_data_path <绝对路径到train.txt> --test_data_path test.txt --max_sentence_len 80 --learning_rate 0.001

demo

http://45.32.100.248:9090/

  • 下载kcws: git clone https://github.com/koth/kcws 切换到本项目代码目录,运行 ./configure cd kcws ./configure 词向量训练; 文本预处理: python kcws/train/process_anno_file.py <语料目录> pre_chars_for_w2v.txt 编译词向量函数: bazel build thir

  • 0.安装依赖包 #用pip安装python科学计算库numpy,sklearn,scipy su - wget http://dl.fedoraproject.org/pub/epel/7/x86_64/e/epel-release-7-8.noarch.rpm yum install epel-release-7-8.noarch.rpm yum install python2-pip.noar

 相关资料
  • Keras 是一个高层神经网络 API,Keras 由纯 Python 编写而成并基 Tensorflow、Theano 以及 CNTK 后端。Keras 为支持快速实验而生,能够把你的idea迅速转换为结果,如果你有如下需求,请选择 Keras: 简易和快速的原型设计(keras具有高度模块化,极简,和可扩充特性) 支持 CNN 和 RNN,或二者的结合 无缝 CPU 和 GPU 切换 Kera

  • 停止更新通知 Hi all,十分感谢大家对keras-cn的支持,本文档从我读书的时候开始维护,到现在已经快两年了。这个过程中我通过翻译文档,为同学们debug和答疑学到了很多东西,也很开心能帮到一些同学。 从2017年我工作以后,由于工作比较繁忙,更新频率有所下降。到今年早期的时候这种情况更加严重,加之我了解到,keras官方已经出了中文文档,更觉本份文档似乎应该已经基本完成了其历史使命,该到了

  • Keras 是一个用 Python 编写的高级神经网络 API,它能够以 TensorFlow, CNTK 或者 Theano 作为后端运行。Keras 的开发重点是支持快速的实验。能够以最小的时延把你的想法转换为实验结果,是做好研究的关键。

  • 相关专题 《深度学习》整理 CNN 专题 RNN 专题 优化算法专题 随机梯度下降 动量算法 自适应学习率算法 基于二阶梯度的优化算法 《深度学习》 5.2 容量、过拟合和欠拟合 欠拟合指模型不能在训练集上获得足够低的训练误差; 过拟合指模型的训练误差与测试误差(泛化误差)之间差距过大; 反映在评价指标上,就是模型在训练集上表现良好,但是在测试集和新数据上表现一般(泛化能力差); 降低过拟合风险的

  • 推荐系统是针对消费者过度选择的直观防线。 鉴于网络上可用信息的爆炸性增长,用户经常受到无数产品,电影或餐馆的欢迎。 原文:Deep Learning based Recommender System: A Survey and New Perspectives (arxiv 1707.07435)

  • 这就是Keras Keras是一个高层神经网络库,Keras由纯Python编写而成并基Tensorflow或Theano。Keras 为支持快速实验而生,能够把你的idea迅速转换为结果,如果你有如下需求,请选择Keras: 简易和快速的原型设计(keras具有高度模块化,极简,和可扩充特性) 支持CNN和RNN,或二者的结合 支持任意的链接方案(包括多输入和多输出训练) 无缝CPU和GPU切换

  • 主要内容 课程列表 专项课程学习 辅助课程 论文专区 课程列表 课程 机构 参考书 Notes等其他资料 卷积神经网络视觉识别 Stanford 暂无 链接 神经网络 Tweet 暂无 链接 深度学习用于自然语言处理 Stanford 暂无 链接 自然语言处理 Speech and Language Processing 链接 专项课程学习 下述的课程都是公认的最好的在线学习资料,侧重点不同,但推

  • Google Cloud Platform 推出了一个 Learn TensorFlow and deep learning, without a Ph.D. 的教程,介绍了如何基于 Tensorflow 实现 CNN 和 RNN,链接在 这里。 Youtube Slide1 Slide2 Sample Code