当前位置: 首页 > 软件库 > 程序开发 > 中文分词库 >

smallseg

中文分词工具包
授权协议 未知
开发语言 Java Python
所属分类 程序开发、 中文分词库
软件类型 开源软件
地区 国产
投 递 者 慕俊语
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

smallseg -- 开源的,基于DFA的轻量级的中文分词工具包

特点:可自定义词典、切割后返回登录词列表和未登录词列表、有一定的新词识别能力。

Python 示例代码:

s3 = file("text.txt").read()
words = [x.rstrip() for x in file("main.dic") ]

from smallseg import SEG
seg = SEG()
print 'Load dict...'
seg.set(words)
print "Dict is OK."

A,B = seg.cut(s3) #A是识别出的登录词列表,B是未登录词列表
for t in A:
    try:
        print t.decode('utf-8')
    except:
        pass
print "============================"
for t in B:
    try:
        print t.decode('utf-8')
    except:
        pass

Java 示例代码: 

Seg seg = new Seg();
seg.useDefaultDict();
System.out.println(seg.cut("至于在这个程序中没有太大的意义, 这是Java提供的强制转化机制。草泥马"));

stdout>>
r:[至于, 在这, 程序, 没有, 太大, 意义, 这是, 提供, 强制, 转化, 机制]
u:[Java, 草泥马, 泥马]
(因为“草泥马”并没有在词库中)
  • smallseg是一款由python编写的开源分词工具包,使用起来也方便。 从下面的地址可以下载得到:   "http://code.google.com/p/smallseg/downloads/detail?name=smallseg_0.6.tar.gz&can=2&q="  , 但是,实际你可能不能成功地刷出网页,可能需要外网。 那么只能从CSDN上下一个0.5版本的。 下载后解压即可,其

  • smallseg -- 开源的,基于DFA的轻量级的中文分词工具包 特点:可自定义词典、切割后返回登录词列表和未登录词列表、有一定的新词识别能力。 Python 示例代码: s3 = file("text.txt").read() words = [x.rstrip() for x in file("main.dic") ] from smallseg import SEG seg = SEG()

  • #encoding=utf-8 #import psyco #psyco.full() words = [x.rstrip() for x in open("main.dic",mode='r',encoding='utf-8') ] from smallseg import SEG seg = SEG() print('Load dict...') seg.set(words) print(

  • 最近想在google app engine上实现站内的全文检索。于是想写一个纯python实现的中文分词程序。 目标如下: 1,实用,能满足绝大部分网络文章的分词需要。 2,快速,分词过程中不会抛出DeadlineExceededError错误。 3,低内存占用,不会因为内存占用超过限制而每个实例运行一次之后就被强制kill掉。 最初的思路是:将分词词库排序好保存在一个list对象里,然后用bis

  • 可自定义词典、返回登录词列表和未登录词列表、有一定的新词识别能力。 http://code.google.com/p/smallseg/ tutorial: s3 = file("text.txt").read() words = [x.rstrip() for x in file("main.dic") ] from smallseg import SEG seg = SEG() print '

  • smallseg分词在线演示(Google App Engine)   http://smallseg.appspot.com/smallseg

 相关资料
  • Genius Genius是一个开源的python中文分词组件,采用 CRF(Conditional Random Field)条件随机场算法。 Feature 支持python2.x、python3.x以及pypy2.x。 支持简单的pinyin分词 支持用户自定义break 支持用户自定义合并词典 支持词性标注 Source Install 安装git: 1) ubuntu or debian

  • 本文向大家介绍支持汉转拼和拼音分词的PHP中文工具类ChineseUtil,包括了支持汉转拼和拼音分词的PHP中文工具类ChineseUtil的使用技巧和注意事项,需要的朋友参考一下 PHP 中文工具类,支持汉字转拼音、拼音分词、简繁互转。 PHP Chinese Tool class, support Chinese pinyin, pinyin participle, simplified a

  • 介绍 现阶段,应用于搜索引擎和自然语言处理的中文分词库五花八门,使用方式各不统一,虽然有适配于Lucene和Elasticsearch的插件,但是我们想在多个库之间选择更换时,依旧有学习时间。 Hutool针对常见中文分词库做了统一接口封装,既定义一套规范,隔离各个库的差异,做到一段代码,随意更换。 Hutool现在封装的引擎有: Ansj HanLP IKAnalyzer Jcseg Jieba

  • 我们的分页采用的组件化实现方式,就是把一个分页菜单拆分成多个组件,比如 总页数 , 上一页, 等。 //定制分页组件 define( 'PAGE_TOTAL_NUM', 1<<0 ); //总页数 define( 'PAGE_PREV', 1<<1 ); //上一页 define( 'PAGE_DOT', 1<< 2); //省略号 define( 'PAGE_L

  • 本文向大家介绍PHPAnalysis中文分词类详解,包括了PHPAnalysis中文分词类详解的使用技巧和注意事项,需要的朋友参考一下 PHPAnalysis是目前广泛使用的中文分词类,使用反向匹配模式分词,因此兼容编码更广泛,现将其变量与常用函数详解如下: 一、比较重要的成员变量 $resultType   = 1        生成的分词结果数据类型(1 为全部, 2为 词典词汇及单个中日韩简

  • 中文分词是怎么走到今天的 话说上个世纪,中文自动分词还处于初级阶段,每句话都要到汉语词表中查找,有没有这个词?有没有这个词?所以研究集中在:怎么查找最快、最全、最准、最狠......,所以就出现了正向最大匹配法、逆向最大匹配法、双向扫描法、助词遍历法......,用新世纪比较流行的一个词来形容就是:你太low了! 中文自动分词最难的两个问题:1)歧义消除;2)未登陆词识别。说句公道话,没有上个世纪