当前位置：首页 > 软件库 > 程序开发 > 中文分词库 >

friso

C 语言开源高性能中文分词器

授权协议 Apache license 2.0

开发语言 C/C++

所属分类程序开发、中文分词库

软件类型开源软件

地区国产

投递者蒋高超

操作系统跨平台

开源组织无

适用人群未知

软件官网

软件文档

官方下载

软件概览

Friso是使用c语言开发的一款开源的高性能中文分词器，使用流行的mmseg算法实现。完全基于模块化设计和实现，可以很方便的植入其他程序中，例如：MySQL，PHP，源码无需修改就能在各种平台下编译使用，加载完20万的词条，内存占用稳定为14.5M．

1、目前最高版本：friso 1.6.1，同时支持对UTF-8/GBK编码的切分，绑定了php扩展和sphinx token插件

2、三种切分模式：

(1).简易模式：FMM算法，适合速度要求场合。
(2).复杂模式-MMSEG四种过滤算法，具有较高的岐义去除，分词准确率达到了98.41%。
(3).( !New)检测模式：只返回词库中已有的词条，很适合某些应用场合。(1.6.1版本开始)

请参考本算法的原作：http://technology.chtsai.org/mmseg/。

3、支持自定义词库。在dict文件夹下，可以随便添加/删除/更改词库和词库词条，并且对词库进行了分类。

4、简体/繁体/简繁体混合支持, 词库使用了friso的Java版本jcseg的简化词库。

5、支持中英/英中混合词的识别(维护词库可以识别任何一种组合)。例如：卡拉ok, 漂亮mm, c语言，IC卡，哆啦a梦。

7、很好的英文支持，英文标点组合词识别, 例如c++, c#, 电子邮件，网址，小数，分数，百分数。

8、(!New)自定义保留标点：你可以自定义保留在切分结果中的标点，这样可以识别出一些复杂的组合，例如：c++, k&r，code.google.com。

9、(!New)复杂英文切分的二次切分：默认Friso会保留数字和字母的原组合，开启此功能，可以进行二次切分提高检索的命中率。例如：qq2013会被切分成：qq/ 2013/ qq2013。

10、支持阿拉伯数字/小数基本单字单位的识别，例如2012年，1.75米，5吨，120斤，38.6℃。

11、自动英文圆角/半角，大写/小写转换。

12、自动中英文同义词追加/同义词匹配. (需要在friso.ini中开启friso.add_syn选项)

13、自动中英文停止词过滤。(需要在friso.ini中开启friso.clr_stw选项)

14、多配置支持, 安全的应用在多进程/多线程的情况下.

15、提供friso.ini配置文件, 可以依据你的需求轻松打造适合于你的应用的分词，请查看Friso开发帮助文档来了解详细的配置。

二、分词速度

测试环境：2.8GHZ/2G/Ubuntu

简单模式：3.8M/秒

复杂模式：1.8M/秒

三、分词测试：

文本：

歧义和同义词:研究生命起源，混合词: 做B超检查身体，x射线本质是什么，今天去奇都ktv唱卡拉ok去，哆啦a梦是一个动漫中的主角，单位和全角: 2009年８月６日开始大学之旅，岳阳今天的气温为38.6℃, 也就是101.48℉, 英文数字: bug report chenxin619315@gmail.com or visit http://code.google.com/p/jcseg, we all admire the hacker spirit!特殊数字: ① ⑩ ⑽ ㈩.

分词结果：

歧义和同义词 : 研究琢磨研讨钻研生命起源，混合词 : 做 b超检查身体， x射线本质是什么，今天去奇都ktv 唱卡拉ok 去，哆啦a梦是一个动漫中的主角，单位和全角 : 2009年 8月 6日开始大学之旅，岳阳今天的气温为 38.6℃ , 也就是 101.48℉ , 英文英语数字 : bug report chenxin 619315 gmail com chenxin619315@gmail.com or visit http : / / code google com code.google.com / p / jcseg , we all admire appreciate like love enjoy the hacker spirit mind ! 特殊数字 : ① ⑩ ⑽ ㈩ .

使用案例

【文本分类】friso中文分词器介绍（c 开源）

一、friso中文分词器 Friso是使用c语言开发的一款高性能中文分词器，使用流行的mmseg算法实现。完全基于模块化设计和实现，可以很方便的植入到其他程序中，例如：MySQL，PHP等。同时支持对UTF-8/GBK编码的切分。【源码无需修改就能在各种平台下编译使用，加载完20万的词条，内存占用稳定为14.5M。】 1。目前最高版本：friso 1.6.0，同时支持对UTF-8/GBK编码的切
friso

软件简介 Friso是使用c语言开发的一款开源的高性能中文分词器，使用流行的mmseg算法实现。完全基于模块化设计和实现，可以很方便的植入其他程序中，例如：MySQL，PHP，源码无需修改就能在各种平台下编译使用，加载完20万的词条，内存占用稳定为14.5M． 1。目前最高版本：friso 1.6.1，同时支持对UTF-8/GBK编码的切分，绑定了php扩展和sphinx token插件 2。三
friso: Friso是使用C语言开发的一款高性能中文分词器，使用流行的mmseg算法实现。完全基于模块化设计和实现...

Friso是什么？ Friso 是使用 c 语言开发的一款开源的高性能中文分词器，使用流行的mmseg算法实现。完全基于模块化设计和实现，可以很方便的植入其他程序中，例如：MySQL，PHP，并且提供了php5, php7, ocaml, lua的插件实现。源码无需修改就能在各种平台下编译使用，加载完 20 万的词条，内存占用稳定为 14.5M. Friso核心功能：中文分词：mmseg算法
friso: Friso 是使用 c 语言开发的一款开源的高性能中文分词器，使用流行的mmseg算法实现。完全基于模块化...

Friso是什么？ Friso 是使用 c 语言开发的一款开源的高性能中文分词器，使用流行的mmseg算法实现。完全基于模块化设计和实现，可以很方便的植入其他程序中，例如：MySQL，PHP，并且提供了php5, php7, ocaml, lua的插件实现。源码无需修改就能在各种平台下编译使用，加载完 20 万的词条，内存占用稳定为 14.5M. Friso核心功能：中文分词：mmseg算法
C语言开源高性能中文分词器 friso

软件介绍 Friso是使用c语言开发的一款开源的高性能中文分词器，使用流行的mmseg算法实现。完全基于模块化设计和实现，可以很方便的植入其他程序中，例如：MySQL，PHP，源码无需修改就能在各种平台下编译使用，加载完20万的词条，内存占用稳定为14.5M． 1。目前最高版本：friso 1.6.1，同时支持对UTF-8/GBK编码的切分，绑定了php扩展和sphinx token插件 2。三种
friso: friso是使用c语言开发的一个高性能中文分词器，使用流行的mmseg算法实现。完全基于模块化设计和实现...

Friso完整版本(词库, 词库管理工具, winNT下的dll文件, 开发帮助文档)下载: https://code.google.com/p/friso/ 一. 关于Friso: friso中文分词器friso是使用c语言开发的一个开源中文分词器，使用流行的mmseg算法实现。完全基于模块化设计和实现，可以很方便的植入其他程序中，例如：MySQL，PHP，源码无需修改就能在各种平台下编译使用，
friso开源库介绍

官方网站:https://code.google.com/p/friso/ 最新动态：friso-1.6.0发布了（2014.05.08 最新版本）开源，简单易用，很适合分词技术的研究。一。friso中文分词器 Friso是使用C语言开发的一款高性能中文分词器，使用流行的mmseg算法实现。完全基于模块化设计和实现，可以很方便的植入到其他程序中，例如：MySQL，PHP等。同时支持对UTF
GitHub - 452896915/friso: High performance Chinese tokenizer with both GBK and UTF-8 charset support...

Friso是什么？ Friso 是使用 c 语言开发的一款开源的高性能中文分词器，使用流行的mmseg算法实现。完全基于模块化设计和实现，可以很方便的植入其他程序中，例如：MySQL，PHP，并且提供了php5, php7, ocaml, lua的插件实现。源码无需修改就能在各种平台下编译使用，加载完 20 万的词条，内存占用稳定为 14.5M. Friso核心功能：中文分词：mmseg算法
GitHub - zhigangc/friso: a Chinese tokenizer

关于friso中文分词组建：欢迎报告你在使用该软件中遇到的各种问题到下面的电子邮件. 作者：陈鑫电子邮件：chenxin619315@gmail.com 更多关于：http://code.google.com/p/friso Java版本：http://code.google.com/p/jcseg PHP版本：http://code.google.com/p/robbe * How to I
friso中文分词器

一。friso中文分词器 Friso是使用c语言开发的一款高性能中文分词器，使用流行的mmseg算法实现。完全基于模块化设计和实现，可以很方便的植入到其他程序中，例如：MySQL，PHP等。同时支持对UTF-8/GBK编码的切分。【源码无需修改就能在各种平台下编译使用，加载完20万的词条，内存占用稳定为14.5M。】 1。目前最高版本：friso 1.6.1，同时支持对UTF-8/GBK编码的切
friso官方网站下载及官方信息

官方网站:https://code.google.com/p/friso/ 最新动态：friso-1.6.0发布了（2014.05.08 最新版本）开源，简单易用，很适合分词技术的研究。一。friso中文分词器 Friso是使用c语言开发的一款高性能中文分词器，使用流行的mmseg算法实现。完全基于模块化设计和实现，可以很方便的植入到其他程序中，例如：MySQL，PHP等。同时支持对UTF
GitHub - noxue/friso: Friso是使用c语言开发的一款开源的高性能中文分词器，使用流行的mmseg算法实现。

Friso完整版本(词库, 词库管理工具, winNT下的dll文件, 开发帮助文档)下载: https://code.google.com/p/friso/ 一. 关于Friso: Friso是使用c语言开发的一款开源的高性能中文分词器，使用流行的mmseg算法实现。完全基于模块化设计和实现，可以很方便的植入其他程序中，例如：MySQL，PHP，源码无需修改就能在各种平台下编译使用，加载完20万
C语言调用friso库实现中文分词器

friso中文分词器库的安装及详细说明见github： https://github.com/lionsoul2014/friso/tree/bb35f949efaeb26f33723719dad9adfd4e283995 #include <friso/friso.h> #include <stdio.h> #include <string.h> //安装目录中的配置文件位置 char* s

friso

同类工具

相关阅读

相关文章

相关问答

相关文档