当前位置：首页 > 软件库 > 程序开发 > 中文分词库 >

snailseg

Python 中文分词库

授权协议 MIT

开发语言 Python

所属分类程序开发、中文分词库

软件类型开源软件

地区国产

投递者司空皓

操作系统跨平台

开源组织无

适用人群未知

软件概览

snailseg：Chinese Words Segment Library in Python 简单的中文分词库

在线分词效果展示 https://snailsegdemo.appspot.com/

Usage

将snailseg目录放置于当前目录或者site-packages目录
import snailseg

代码示例

import snailseg
words = snailseg.cut("南京市长江大桥")
for w in words:
    print w

Algorithm

算法是统计单字在词语中出现位置的概率大小，选择最大可能的分词方案
算法简单，只有100行纯Python代码

Performance

700 KB/Second
Test Env: Intel(R) Core(TM) i7-2600 CPU @ 3.4GHz；《围城》.txt

Example

https://github.com/fxsjy/snailseg/blob/master/test.py
在线分词效果展示 https://snailsegdemo.appspot.com/

Sentences:

cuttest("这是一个伸手不见五指的黑夜。我叫孙悟空，我爱北京，我爱Python和C++。")
cuttest("我不喜欢日本和服")
cuttest("雷猴回归人间")
cuttest("工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作")
cuttest("我需要廉租房")
cuttest("永和服装饰品有限公司")
cuttest("我爱北京天安门")
cuttest("abc")
cuttest("隐马尔可夫")
cuttest("雷猴是个好网站")
cuttest("“Microsoft”一词由“MICROcomputer（微型计算机）”和“SOFTware（软件）”两部分组成")
cuttest("草泥马和欺实马是今年的流行词汇")
cuttest("伊藤洋华堂总府店")
cuttest("中国科学院计算技术研究所")
cuttest("罗密欧与朱丽叶  Hahaha")
cuttest("新生小鼠中肌红蛋白含量较成年鼠高吗？")
cuttest("南京市长江大桥")
cuttest("乒乓球拍卖完了")
cuttest("大")
cuttest("")

Efect:

这是 / 一个 / 伸手 / 不见 / 五指 / 的 / 黑夜 / 我 / 叫 / 孙悟空 / 我爱 / 北京 /
我爱 / Python / 和 / C++ /
我 / 不 / 喜欢 / 日本 / 和服 /
雷 / 猴 / 回归 / 人间 /
工信处 / 女 / 干事 / 每月 / 经过 / 下属 / 科室 / 都 / 要 / 亲口 / 交代 / 24 / 口
 / 交换机 / 等 / 技术性 / 器件 / 的 / 安装 / 工作 /
我 / 需要 / 廉租 / 房 /
永和 / 服装 / 饰品 / 有限 / 公司 /
我爱 / 北京 / 天安 / 门 /
abc /
隐 / 马尔 / 可夫 /
雷 / 猴 / 是 / 个 / 好网 / 站 /
Microsoft / 一 / 词 / 由 / MICROcomputer / 微型 / 计算机 / 和 / SOFTware / 软件
/ 两部 / 分组 / 成 /
草泥马 / 和 / 欺 / 实 / 马 / 是 / 今年 / 的 / 流行 / 词汇 /
伊藤 / 洋华堂 / 总府 / 店 /
中国 / 科学院 / 计算 / 技术 / 研究 / 所 /
罗密 / 欧 / 与 / 朱丽 / 叶 / Hahaha /
新生 / 小鼠 / 中 / 肌 / 红蛋 / 白 / 含量 / 较 / 成年 / 鼠 / 高 / 吗 /
南京市 / 长江 / 大桥 /
乒乓 / 球拍 / 卖 / 完了 /
大 /

使用案例

基于单字位置最大概率的Python分词工具snailseg

[i=s] 本帖最后由 jieforest 于 2012-9-22 21:33 编辑 snailseg是一个使用Python编写的简单的中文分词库。项目地址： https://github.com/fxsjy/snailseg 在线分词效果展示： https://snailsegdemo.appspot.com/（使用代理访问）使用方法将snailseg目录放置于当前目录或者site-pac

相关资料

genius中文分词

Genius Genius是一个开源的python中文分词组件，采用 CRF(Conditional Random Field)条件随机场算法。 Feature 支持python2.x、python3.x以及pypy2.x。支持简单的pinyin分词支持用户自定义break 支持用户自定义合并词典支持词性标注 Source Install 安装git: 1) ubuntu or debian
中文分词封装-TokenizerUtil

介绍现阶段，应用于搜索引擎和自然语言处理的中文分词库五花八门，使用方式各不统一，虽然有适配于Lucene和Elasticsearch的插件，但是我们想在多个库之间选择更换时，依旧有学习时间。 Hutool针对常见中文分词库做了统一接口封装，既定义一套规范，隔离各个库的差异，做到一段代码，随意更换。 Hutool现在封装的引擎有： Ansj HanLP IKAnalyzer Jcseg Jieba
PHPAnalysis中文分词类详解

本文向大家介绍PHPAnalysis中文分词类详解，包括了PHPAnalysis中文分词类详解的使用技巧和注意事项，需要的朋友参考一下 PHPAnalysis是目前广泛使用的中文分词类，使用反向匹配模式分词，因此兼容编码更广泛，现将其变量与常用函数详解如下：一、比较重要的成员变量 $resultType = 1 生成的分词结果数据类型(1 为全部， 2为词典词汇及单个中日韩简
探究中文分词的艺术

中文分词是怎么走到今天的话说上个世纪，中文自动分词还处于初级阶段，每句话都要到汉语词表中查找，有没有这个词？有没有这个词？所以研究集中在：怎么查找最快、最全、最准、最狠......，所以就出现了正向最大匹配法、逆向最大匹配法、双向扫描法、助词遍历法......，用新世纪比较流行的一个词来形容就是：你太low了！中文自动分词最难的两个问题：1）歧义消除；2）未登陆词识别。说句公道话，没有上个世纪
10.1.中文分词核心配置

关于中文分词的详细配置实例和分词词典的自定义设置，可以访问Coreseek网站中文分词核心配置查看。核心配置： charset_dictpath = /usr/local/mmseg3/etc/ charset_type = zh_cn.utf-8 #charset_table = .................... #需将原有的该配置注释掉 ngram_le
python中文分词库jieba使用方法详解

本文向大家介绍python中文分词库jieba使用方法详解，包括了python中文分词库jieba使用方法详解的使用技巧和注意事项，需要的朋友参考一下安装python中文分词库jieba 法1：Anaconda Prompt下输入conda install jieba 法2：Terminal下输入pip3 install jieba 1、分词 1.1、CUT函数简介 cut(sentence,
如何使用分类词词典从文本片段中提取特定词？

我想从数据帧中的文本中提取特定的单词。这些单词我已经输入到字典的列表中，它们属于某些类别（键）。由此，我想创建与存储单词的类别相对应的列。和往常一样，最好用例子来说明：我有一个数据框：它创建表：还有一本我想从中提取的分类词词典。这些单词都是没有符号的自然语言单词，可以包括短语，例如本例中的“alloy wheels”（这不一定是字典，我只是觉得这是最好的方法）：根据这个，我想创建一个如下所
word分词

word分词是一个Java实现的分布式的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为，能自定义用户词库、自动检测词库变化、支持大规模分布式环境，能灵活指定多种分词算法，能使用refine功能灵活控制分词结果，还能使用词频统计、词性标注、同义标注、反

snailseg

Usage

Algorithm

Performance

Example

同类工具

相关阅读

相关文章

相关问答

相关文档