当前位置：首页 > 软件库 > 程序开发 > 中文分词库 >

RMMSeg

中文分词器

授权协议 MIT/X

开发语言 Ruby

所属分类程序开发、中文分词库

软件类型开源软件

地区国产

投递者葛威

操作系统跨平台

开源组织无

适用人群未知

软件官网

官方下载

软件概览

rmmseg是浙江大学的学生pluskid开发的纯ruby版本的中文分词程序，采用的也是“基于词典的最大匹配算法”

$ echo "我们都喜欢用 Ruby" | rmmseg
我们 都 喜欢 用 Ruby

使用案例

ferret+acts_as_ferret+RMMSeg全文索引+中文分词的使用

首先,在ubuntu下要安装 atp-get install build-essential zlib1g-dev ruby需要安装dev包 1、安装ferret sudo gem install ferret 2、安装acts_as_ferret 可用gem sudo gem install acts_as_ferret 或用plugins svn://projects.jkraemer.ne
貌似rmmseg + ferret中文分词不是很好

用了一下ruby的中文分词rmmseg + ferret，发现rmmseg的中文分词并不是很好，比如：Hawkins开始了他第一部掌上电脑的设计构想。搜索“掌上电脑”并不能搜索到结果，但是如果把上面这一句改为：Hawkins开始了他第一部掌上电脑的设计构想。请注意“掌上电脑”两边的空格，这样的话，rmmseg就可以正确地分词了。对英文的分词倒是很准确的（好像个个全文检索对英文分词都很强的吧）
求教rmmseg + ferret设置问题

安装好rmmseg,ferret,acts_as_ferret后，启动rails无法加载rmmseg 已经在environment.rb加上了： config.gem 'ferret',:version => '0.11.6' config.gem 'rmmseg',:version => '0.1.6' config.gem 'acts_as_ferret',:version =>
Ferret + Rmmseg

首先,在ubuntu下要安装 atp-get install build-essential zlib1g-dev ruby需要安装dev包 1、安装ferret sudo gem install ferret 2、安装acts_as_ferret 可用gem sudo gem install acts_as_ferret 或用plugins svn://projects.jkraemer.net
Thinking Sphinx + Coreseek + rmmseg的安装与使用

要在Rails上使用全文检索,选择一直不多,以前我一直是使用Ferret + Act_as_ferret + rmmseg的.不过Ferret不支持ruby 1.9,好像也很久没更新了.现在Rails上可用的全文检索又多了一个,那就是Thinking Sphinx . JavaEye的司徒正美同学已经写了篇介绍TS的大作,详见利用thinking sphinx实现全文检索 .我只是记录一下我在

相关资料

rmmseg-cpp

rmmseg的主要问题是性能和内存消耗。用纯ruby编写的rmmseg分词的速度非常慢，而且内存消耗非常惊人，当使用复杂分词算法的时候，内存呈线性上升的现象。为此rmmseg的作者pluskid再接再厉用C++重写了一遍rmmseg项目，这就是rmmseg-cpp。根据作者自己的简单测试表明:rmmseg-cpp的性能是rmmseg的400倍之多。安装方法：gem install pluskid
genius中文分词

Genius Genius是一个开源的python中文分词组件，采用 CRF(Conditional Random Field)条件随机场算法。 Feature 支持python2.x、python3.x以及pypy2.x。支持简单的pinyin分词支持用户自定义break 支持用户自定义合并词典支持词性标注 Source Install 安装git: 1) ubuntu or debian
中文分词封装-TokenizerUtil

介绍现阶段，应用于搜索引擎和自然语言处理的中文分词库五花八门，使用方式各不统一，虽然有适配于Lucene和Elasticsearch的插件，但是我们想在多个库之间选择更换时，依旧有学习时间。 Hutool针对常见中文分词库做了统一接口封装，既定义一套规范，隔离各个库的差异，做到一段代码，随意更换。 Hutool现在封装的引擎有： Ansj HanLP IKAnalyzer Jcseg Jieba
PHPAnalysis中文分词类详解

本文向大家介绍PHPAnalysis中文分词类详解，包括了PHPAnalysis中文分词类详解的使用技巧和注意事项，需要的朋友参考一下 PHPAnalysis是目前广泛使用的中文分词类，使用反向匹配模式分词，因此兼容编码更广泛，现将其变量与常用函数详解如下：一、比较重要的成员变量 $resultType = 1 生成的分词结果数据类型(1 为全部， 2为词典词汇及单个中日韩简
探究中文分词的艺术

中文分词是怎么走到今天的话说上个世纪，中文自动分词还处于初级阶段，每句话都要到汉语词表中查找，有没有这个词？有没有这个词？所以研究集中在：怎么查找最快、最全、最准、最狠......，所以就出现了正向最大匹配法、逆向最大匹配法、双向扫描法、助词遍历法......，用新世纪比较流行的一个词来形容就是：你太low了！中文自动分词最难的两个问题：1）歧义消除；2）未登陆词识别。说句公道话，没有上个世纪
10.1.中文分词核心配置

关于中文分词的详细配置实例和分词词典的自定义设置，可以访问Coreseek网站中文分词核心配置查看。核心配置： charset_dictpath = /usr/local/mmseg3/etc/ charset_type = zh_cn.utf-8 #charset_table = .................... #需将原有的该配置注释掉 ngram_le

RMMSeg

同类工具

相关阅读

相关文章

相关问答

相关文档