当前位置: 首页 > 工具软件 > snailseg > 使用案例 >

基于单字位置最大概率的Python分词工具snailseg

马晓博
2023-12-01
[i=s] 本帖最后由 jieforest 于 2012-9-22 21:33 编辑

snailseg是一个使用Python编写的简单的中文分词库。

项目地址: https://github.com/fxsjy/snailseg
在线分词效果展示: https://snailsegdemo.appspot.com/(使用代理访问)

使用方法

将snailseg目录放置于当前目录或者site-packages目录
import snailseg
代码示例

CODE:

import snailseg  
words = snailseg.cut("南京市长江大桥")  
for w in words:  
    print w  算法

算法是统计单字在词语中出现位置的概率大小,选择最大可能的分词方案。算法很简单,只有100行纯Python代码。

性能

测试环境:Intel(R) Core(TM) i7-2600 CPU @ 3.4GHz;《围城》.txt
速度:700 KB/Second
示例

在线分词效果展示: https://snailsegdemo.appspot.com/
测试用例: https://github.com/fxsjy/snailseg/blob/master/test.py

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/301743/viewspace-744829/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/301743/viewspace-744829/

 类似资料: