fudannlp - 开源中文自然语言处理工具包|中文分词|词性标注|实体名识别|关键词抽取|句法分析|文本分类|机器学习|信息检索|JAVA - Google Project Hosting
介绍
FudanNLP主要是为中文自然语言处理而开发的工具包,也包含为实现这些任务的机器学习算法和数据集。本工具包及其包含数据集使用LGPL3.0许可证。
演示地址: http://jkx.fudan.edu.cn/nlp
简介材料:http://q.weibo.com/960122/file/45010905
FudanNLP SDK 1.05版:http://q.weibo.com/960122/file/67567251
技术交流改用微博方式:http://q.weibo.com/960122
更新
- 2011.10.14 发布FudanNLP1.05版,增加程序注释,修正一些bug,支持并行化, 支持自定义词典,高速关键词抽取等
- 2011.8.1 发布FudanNLP 1.0版 (速度更快,内存占有更少)
- 2011.1.20 发布FudanNLP WebServices版 http://jkx.fudan.edu.cn/fudannlp
- 2010.12.22 发布FudanNLP 0.95版
- 2010.9.15 web演示更新 基于0.95版
- 2010.06.28 发布FudanNLP 0.8
功能
- 信息检索: 文本分类 新闻聚类
- 中文处理: 中文分词 词性标注 实体名识别 关键词抽取 依存句法分析 时间短语识别
- 结构化学习: 在线学习 层次分类 聚类 精确推理
性能测试
数据集
下一版本计划
- 自定义字典
- 成分句法分析
- 程序架构
- 说明文档
开发计划
- 领域自适应
- 中文短语识别
- 中文语义角色标注
- 分布式训练、推理
使用方法
API调用方式 命令行调用方式 WebServices方式
第三方工具包 trove-2.1.0.jar;commons-cli-1.2.jar 需要JRE 1.6版本或以上 开发人员