当前位置：首页 > 软件库 > 程序开发 > 中文分词库 >

scseg

Python中文分词

授权协议 BSD

开发语言 Python

所属分类程序开发、中文分词库

软件类型开源软件

地区国产

投递者吕霖

操作系统跨平台

开源组织无

适用人群未知

软件概览

scseg中文分词，是基于mmseg的简单分词组件

Feature

支持pinyin分词
支持用户自定义词典
支持单位合并
支持汉字数字识别

Install

pip install scseg
通过import scseg来引用

Algorithm

采用mmseg算法进行切分
采用规则方式支持中文数字分词

功能 1)：分词scseg.seg_text方法

scseg.seg_text函数接受3个参数:
text参数为需要分词的字符
ext_dict_words为用户自定义的扩展字典
use_combine代表是否需要合并处理

代码示例( 全功能分词 )

#encoding=utf-8
import genius

seg_list = scseg.seg_text(u'中国人民站起来了pinyin')
print '\n'.join(seg_list)

功能 2)：面向索引的分词

scseg.seg_keywords为面向索引的切割方式
其作用是枚举出所有可能的切割方式
text参数为需要分词的字符

代码示例( 全功能分词 )

#encoding=utf-8
import scseg

seg_list = scseg.seg_keywords(u'中国人民站起来了pinyin')
print '\n'.join(seg_list)

相关资料

genius中文分词

Genius Genius是一个开源的python中文分词组件，采用 CRF(Conditional Random Field)条件随机场算法。 Feature 支持python2.x、python3.x以及pypy2.x。支持简单的pinyin分词支持用户自定义break 支持用户自定义合并词典支持词性标注 Source Install 安装git: 1) ubuntu or debian
中文分词封装-TokenizerUtil

介绍现阶段，应用于搜索引擎和自然语言处理的中文分词库五花八门，使用方式各不统一，虽然有适配于Lucene和Elasticsearch的插件，但是我们想在多个库之间选择更换时，依旧有学习时间。 Hutool针对常见中文分词库做了统一接口封装，既定义一套规范，隔离各个库的差异，做到一段代码，随意更换。 Hutool现在封装的引擎有： Ansj HanLP IKAnalyzer Jcseg Jieba
PHPAnalysis中文分词类详解

本文向大家介绍PHPAnalysis中文分词类详解，包括了PHPAnalysis中文分词类详解的使用技巧和注意事项，需要的朋友参考一下 PHPAnalysis是目前广泛使用的中文分词类，使用反向匹配模式分词，因此兼容编码更广泛，现将其变量与常用函数详解如下：一、比较重要的成员变量 $resultType = 1 生成的分词结果数据类型(1 为全部， 2为词典词汇及单个中日韩简
探究中文分词的艺术

中文分词是怎么走到今天的话说上个世纪，中文自动分词还处于初级阶段，每句话都要到汉语词表中查找，有没有这个词？有没有这个词？所以研究集中在：怎么查找最快、最全、最准、最狠......，所以就出现了正向最大匹配法、逆向最大匹配法、双向扫描法、助词遍历法......，用新世纪比较流行的一个词来形容就是：你太low了！中文自动分词最难的两个问题：1）歧义消除；2）未登陆词识别。说句公道话，没有上个世纪
10.1.中文分词核心配置

关于中文分词的详细配置实例和分词词典的自定义设置，可以访问Coreseek网站中文分词核心配置查看。核心配置： charset_dictpath = /usr/local/mmseg3/etc/ charset_type = zh_cn.utf-8 #charset_table = .................... #需将原有的该配置注释掉 ngram_le
在Android中区分CJK语言（中文，日文，韩文）

问题内容：我希望能够将中文，日文和韩文书写的字符识别为一般组和细分语言。原因如下：将CJK视为一般团体：我正在制作一个垂直脚本蒙古语。为此，我需要将文本行旋转90度，因为字形是水平存储在字体中的。但是，对于CJK语言，我需要再次将它们旋转回去，以使它们以正确的方向书写，而只是沿线叠放在一起。将CJK区分为特定的语言：我也在制作蒙古文字典，当用户输入CJK字符进行查找时，我想自动识别该语言
在J2ME中分割文字

问题内容：我正在创建一个应用程序，该应用程序应该使用get方法从mySql数据库读取文本。一旦它以字符串的形式从数据库中获取数据元素，就应该拆分字符串并使用该字符串创建列表，但是split（）方法似乎在这里不起作用。 J2ME说-我该怎么办？我的代码如下：我已经在台式机和控制台应用程序上进行了尝试，并且看起来运行良好，但是代码无法在j2me应用程序中运行。我应该使用一种方法吗？我能做什么？
在java中拆分文件

scseg

同类工具

相关阅读

相关文章

相关问答

相关文档