[i=s] 本帖最后由 jieforest 于 2012-9-22 21:33 编辑
snailseg是一个使用Python编写的简单的中文分词库。
项目地址:
https://github.com/fxsjy/snailseg
在线分词效果展示:
https://snailsegdemo.appspot.com/(使用代理访问)
使用方法
将snailseg目录放置于当前目录或者site-packages目录
import snailseg
代码示例
CODE:
import snailseg
words = snailseg.cut("南京市长江大桥")
for w in words:
print w 算法
算法是统计单字在词语中出现位置的概率大小,选择最大可能的分词方案。算法很简单,只有100行纯Python代码。
性能
测试环境:Intel(R) Core(TM) i7-2600 CPU @ 3.4GHz;《围城》.txt
速度:700 KB/Second
示例
在线分词效果展示:
https://snailsegdemo.appspot.com/
测试用例:
https://github.com/fxsjy/snailseg/blob/master/test.py
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/301743/viewspace-744829/,如需转载,请注明出处,否则将追究法律责任。