转载:::https://github.com/NLPchina/ansj_seg/blob/master/src/main/java/org/ansj/recognition/impl/TimeRecognition.java
Ansj中文分词 这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化 内存中中文分词每秒钟大约100万字(速度上已经超越ictclas) 文件读取分词每秒钟大约30万字 准确率能达到96%以上 目前实现了.中文分词. 中文姓名识别 . 用户自定义词典 可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项
Ansj中文分词 使用帮助 开发文档:3.x版本及之前,5.x版本及之后 摘要 这是一个基于n-Gram+CRF+HMM的中文分词的java实现。 分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上。 目前实现了中文分词、中文姓名识别、用户自定义词典、关键字提取、自动摘要、关键字标记等功能。 可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目。 mav