当前位置：首页 > 软件库 > 程序开发 > 中文分词库 >

Yaha

Python 中文分词库

授权协议 MIT

开发语言 Python

所属分类程序开发、中文分词库

软件类型开源软件

地区国产

投递者梁建德

操作系统跨平台

开源组织无

适用人群未知

软件概览

"哑哈"中文分词，更快或更准确，由你来定义。通过简单定制，让分词模块更适用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha

基本功能：

精确模式，将句子切成最合理的词。
全模式，所有的可能词都被切成词，不消除歧义。
搜索引擎模式，在精确的基础上再次驿长词进行切分，提高召回率，适合搜索引擎创建索引。
备选路径，可生成最好的多条切词路径，可在此基础上根据其它信息得到更精确的分词模式。

可用插件：

正则表达式插件
人名前缀插件
地名后缀插件
定制功能。分词过程产生4种阶段，每个阶段都可以加入个人的定制。

附加功能：

新词学习功能。通过输入大段文字，学习到此内容产生的新老词语。
获取大段文本的关键字。
获取大段文本的摘要。
支持用户自定义词典

Algorithm

核心是基于查找句子的最大概率路径来进行分词。
保证效率的基础上，对分词的各个阶段进行定义，方便用户添加属于自己的分词方法(默认有正则，前缀名字与后缀地名)。
用户可自定义使用动态规划或Dijdstra算法得到最优的一条或多条路径，再次可根据词性(中科大ictclas的作法)等其它信息得获得最优路径。
使用“最大熵”算法来实现对大文本的新词发现能力，很适合使用它来创建自定义词典，或在SNS等场合进行数据挖掘的工作。
相比已存在的结巴分词，去掉了很消耗内存的Trie树结构，以及新词发现能力并不强的HMM模型(未来此模型可能当成一个备选插件加入到此模块)。

目前状态

以上提到的核心部分以及基础功能都已得到实现。不过一些细节正在实现当中，目前还未发布版本。一些片段的代码可以从我的代码分享得到：http://www.oschina.net/code/list_by_user?id=1180874

使用案例

yaha分词

　yaha分词：https://github.com/jannson/yaha 转载于:https://www.cnblogs.com/shaosks/p/8117139.html
可定制的分词库——Yaha（哑哈）分词

可定制的分词库——Yaha（哑哈）分词在线测试地址：http://yaha.v-find.com/ 部署于GAE yahademo.appspot.com Yaha分词主要特点是把分词过程分成了4个阶段，每个阶段都可以让用户加入自己的一些定制，以面向不同的用户需求。这是一个最简单真白的示例： # -*- coding=utf-8 -*- import sys, re from yaha imp
关于yaha中文分词（将中文分词后，结合TfidfVectorizer变成向量）

https://github.com/jannson/yaha # -*- coding: utf-8 -*- """ Created on Wed Aug 10 08:35:55 2016 @author: Administrator """ # -*- coding=utf-8 -*- import sys, re, codecs import cProfile from yaha imp

相关资料

genius中文分词

Genius Genius是一个开源的python中文分词组件，采用 CRF(Conditional Random Field)条件随机场算法。 Feature 支持python2.x、python3.x以及pypy2.x。支持简单的pinyin分词支持用户自定义break 支持用户自定义合并词典支持词性标注 Source Install 安装git: 1) ubuntu or debian
中文分词封装-TokenizerUtil

介绍现阶段，应用于搜索引擎和自然语言处理的中文分词库五花八门，使用方式各不统一，虽然有适配于Lucene和Elasticsearch的插件，但是我们想在多个库之间选择更换时，依旧有学习时间。 Hutool针对常见中文分词库做了统一接口封装，既定义一套规范，隔离各个库的差异，做到一段代码，随意更换。 Hutool现在封装的引擎有： Ansj HanLP IKAnalyzer Jcseg Jieba
PHPAnalysis中文分词类详解

本文向大家介绍PHPAnalysis中文分词类详解，包括了PHPAnalysis中文分词类详解的使用技巧和注意事项，需要的朋友参考一下 PHPAnalysis是目前广泛使用的中文分词类，使用反向匹配模式分词，因此兼容编码更广泛，现将其变量与常用函数详解如下：一、比较重要的成员变量 $resultType = 1 生成的分词结果数据类型(1 为全部， 2为词典词汇及单个中日韩简
探究中文分词的艺术

中文分词是怎么走到今天的话说上个世纪，中文自动分词还处于初级阶段，每句话都要到汉语词表中查找，有没有这个词？有没有这个词？所以研究集中在：怎么查找最快、最全、最准、最狠......，所以就出现了正向最大匹配法、逆向最大匹配法、双向扫描法、助词遍历法......，用新世纪比较流行的一个词来形容就是：你太low了！中文自动分词最难的两个问题：1）歧义消除；2）未登陆词识别。说句公道话，没有上个世纪
10.1.中文分词核心配置

关于中文分词的详细配置实例和分词词典的自定义设置，可以访问Coreseek网站中文分词核心配置查看。核心配置： charset_dictpath = /usr/local/mmseg3/etc/ charset_type = zh_cn.utf-8 #charset_table = .................... #需将原有的该配置注释掉 ngram_le
python中文分词库jieba使用方法详解

本文向大家介绍python中文分词库jieba使用方法详解，包括了python中文分词库jieba使用方法详解的使用技巧和注意事项，需要的朋友参考一下安装python中文分词库jieba 法1：Anaconda Prompt下输入conda install jieba 法2：Terminal下输入pip3 install jieba 1、分词 1.1、CUT函数简介 cut(sentence,
如何使用分类词词典从文本片段中提取特定词？

我想从数据帧中的文本中提取特定的单词。这些单词我已经输入到字典的列表中，它们属于某些类别（键）。由此，我想创建与存储单词的类别相对应的列。和往常一样，最好用例子来说明：我有一个数据框：它创建表：还有一本我想从中提取的分类词词典。这些单词都是没有符号的自然语言单词，可以包括短语，例如本例中的“alloy wheels”（这不一定是字典，我只是觉得这是最好的方法）：根据这个，我想创建一个如下所
word分词

word分词是一个Java实现的分布式的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为，能自定义用户词库、自动检测词库变化、支持大规模分布式环境，能灵活指定多种分词算法，能使用refine功能灵活控制分词结果，还能使用词频统计、词性标注、同义标注、反

Yaha

同类工具

相关阅读

相关文章

相关问答

相关文档