这是一个基于深度学习的分词系统和语料项目。
背景
97.5%准确率的深度学习中文分词(字嵌入+Bi-LSTM+CRF)
构建
安装好bazel代码构建工具,clone下来tensorflow项目代码,配置好(./configure)
clone 本项目地址到tensorflow同级目录,切换到本项目代码目录,运行./configure
编译后台服务
bazel build //kcws/cc:seg_backend_api
训练
1. 关注“待字闺中”公众号 回复 kcws 获取语料下载地址
2. 解压语料到一个目录
3. 切换到代码目录,运行:
pyton kcws/train/process_anno_file <语料目录> chars_for_w2v.txt 使用word2vec 训练 chars_for_w2v (注意-binary 0),得到字嵌入结果vec.txt bazel build kcws/train:generate_training ./bazel-bin/kcws/train/generate_training vec.txt <语料目录> all.txt python kcws/train/filter_sentence.py all.txt (得到train.txt , test.txt)
4. 安装好tensorflow,切换到kcws代码目录,运行:
python kcws/train/train_cws_lstm.py --word2vec_path vec.txt --train_data_path <绝对路径到train.txt> --test_data_path test.txt --max_sentence_len 80 --learning_rate 0.001
demo
下载kcws: git clone https://github.com/koth/kcws 切换到本项目代码目录,运行 ./configure cd kcws ./configure 词向量训练; 文本预处理: python kcws/train/process_anno_file.py <语料目录> pre_chars_for_w2v.txt 编译词向量函数: bazel build thir
0.安装依赖包 #用pip安装python科学计算库numpy,sklearn,scipy su - wget http://dl.fedoraproject.org/pub/epel/7/x86_64/e/epel-release-7-8.noarch.rpm yum install epel-release-7-8.noarch.rpm yum install python2-pip.noar
Keras 是一个高层神经网络 API,Keras 由纯 Python 编写而成并基 Tensorflow、Theano 以及 CNTK 后端。Keras 为支持快速实验而生,能够把你的idea迅速转换为结果,如果你有如下需求,请选择 Keras: 简易和快速的原型设计(keras具有高度模块化,极简,和可扩充特性) 支持 CNN 和 RNN,或二者的结合 无缝 CPU 和 GPU 切换 Kera
停止更新通知 Hi all,十分感谢大家对keras-cn的支持,本文档从我读书的时候开始维护,到现在已经快两年了。这个过程中我通过翻译文档,为同学们debug和答疑学到了很多东西,也很开心能帮到一些同学。 从2017年我工作以后,由于工作比较繁忙,更新频率有所下降。到今年早期的时候这种情况更加严重,加之我了解到,keras官方已经出了中文文档,更觉本份文档似乎应该已经基本完成了其历史使命,该到了
Keras 是一个用 Python 编写的高级神经网络 API,它能够以 TensorFlow, CNTK 或者 Theano 作为后端运行。Keras 的开发重点是支持快速的实验。能够以最小的时延把你的想法转换为实验结果,是做好研究的关键。
相关专题 《深度学习》整理 CNN 专题 RNN 专题 优化算法专题 随机梯度下降 动量算法 自适应学习率算法 基于二阶梯度的优化算法 《深度学习》 5.2 容量、过拟合和欠拟合 欠拟合指模型不能在训练集上获得足够低的训练误差; 过拟合指模型的训练误差与测试误差(泛化误差)之间差距过大; 反映在评价指标上,就是模型在训练集上表现良好,但是在测试集和新数据上表现一般(泛化能力差); 降低过拟合风险的
推荐系统是针对消费者过度选择的直观防线。 鉴于网络上可用信息的爆炸性增长,用户经常受到无数产品,电影或餐馆的欢迎。 原文:Deep Learning based Recommender System: A Survey and New Perspectives (arxiv 1707.07435)
这就是Keras Keras是一个高层神经网络库,Keras由纯Python编写而成并基Tensorflow或Theano。Keras 为支持快速实验而生,能够把你的idea迅速转换为结果,如果你有如下需求,请选择Keras: 简易和快速的原型设计(keras具有高度模块化,极简,和可扩充特性) 支持CNN和RNN,或二者的结合 支持任意的链接方案(包括多输入和多输出训练) 无缝CPU和GPU切换
主要内容 课程列表 专项课程学习 辅助课程 论文专区 课程列表 课程 机构 参考书 Notes等其他资料 卷积神经网络视觉识别 Stanford 暂无 链接 神经网络 Tweet 暂无 链接 深度学习用于自然语言处理 Stanford 暂无 链接 自然语言处理 Speech and Language Processing 链接 专项课程学习 下述的课程都是公认的最好的在线学习资料,侧重点不同,但推
Google Cloud Platform 推出了一个 Learn TensorFlow and deep learning, without a Ph.D. 的教程,介绍了如何基于 Tensorflow 实现 CNN 和 RNN,链接在 这里。 Youtube Slide1 Slide2 Sample Code