当前位置：首页 > 软件库 > 程序开发 > 中文分词库 >

smallseg

中文分词工具包

授权协议未知

开发语言 Java Python

所属分类程序开发、中文分词库

软件类型开源软件

地区国产

投递者慕俊语

操作系统跨平台

开源组织无

适用人群未知

软件官网

官方下载

软件概览

smallseg -- 开源的，基于DFA的轻量级的中文分词工具包

特点：可自定义词典、切割后返回登录词列表和未登录词列表、有一定的新词识别能力。

Python 示例代码：

s3 = file("text.txt").read()
words = [x.rstrip() for x in file("main.dic") ]

from smallseg import SEG
seg = SEG()
print 'Load dict...'
seg.set(words)
print "Dict is OK."

A,B = seg.cut(s3) #A是识别出的登录词列表，B是未登录词列表
for t in A:
    try:
        print t.decode('utf-8')
    except:
        pass
print "============================"
for t in B:
    try:
        print t.decode('utf-8')
    except:
        pass

Java 示例代码：

Seg seg = new Seg();
seg.useDefaultDict();
System.out.println(seg.cut("至于在这个程序中没有太大的意义, 这是Java提供的强制转化机制。草泥马"));

stdout>>
r:[至于, 在这, 程序, 没有, 太大, 意义, 这是, 提供, 强制, 转化, 机制]
u:[Java, 草泥马, 泥马]
(因为“草泥马”并没有在词库中)

使用案例

Python3.5.2下的Smallseg分词工具修改

smallseg是一款由python编写的开源分词工具包，使用起来也方便。从下面的地址可以下载得到： "http://code.google.com/p/smallseg/downloads/detail?name=smallseg_0.6.tar.gz&can=2&q=" ，但是，实际你可能不能成功地刷出网页，可能需要外网。那么只能从CSDN上下一个0.5版本的。下载后解压即可，其
smallseg首页、文档和下载 - 中文分词工具包 - OSCHINA - 中文开源技术交流社区

smallseg -- 开源的，基于DFA的轻量级的中文分词工具包特点：可自定义词典、切割后返回登录词列表和未登录词列表、有一定的新词识别能力。 Python 示例代码： s3 = file("text.txt").read() words = [x.rstrip() for x in file("main.dic") ] from smallseg import SEG seg = SEG()
Python-smallseg分词

#encoding=utf-8 #import psyco #psyco.full() words = [x.rstrip() for x in open("main.dic",mode='r',encoding='utf-8') ] from smallseg import SEG seg = SEG() print('Load dict...') seg.set(words) print(
Python 中文分词：用纯python实现 / FMM 算法 / pymmseg-cpp / smallseg / judou 句读 / BECer-GAE

最近想在google app engine上实现站内的全文检索。于是想写一个纯python实现的中文分词程序。目标如下：１，实用，能满足绝大部分网络文章的分词需要。２，快速，分词过程中不会抛出DeadlineExceededError错误。３，低内存占用，不会因为内存占用超过限制而每个实例运行一次之后就被强制kill掉。最初的思路是：将分词词库排序好保存在一个list对象里，然后用bis
smallseg---又一个开源python分词库

可自定义词典、返回登录词列表和未登录词列表、有一定的新词识别能力。 http://code.google.com/p/smallseg/ tutorial: s3 = file("text.txt").read() words = [x.rstrip() for x in file("main.dic") ] from smallseg import SEG seg = SEG() print '
smallseg分词在线演示（Google App Engine）

smallseg分词在线演示（Google App Engine） http://smallseg.appspot.com/smallseg

smallseg

同类工具

相关阅读

相关文章

相关问答

相关文档