Friso是使用c语言开发的一款开源的高性能中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入其他程序中,例如:MySQL,PHP,源码无需修改就能在各种平台下编译使用,加载完20万的词条,内存占用稳定为14.5M.
1、目前最高版本:friso 1.6.1,同时支持对UTF-8/GBK编码的切分,绑定了php扩展和sphinx token插件
2、三种切分模式:
(1).简易模式:FMM算法,适合速度要求场合。
(2).复杂模式-MMSEG四种过滤算法,具有较高的岐义去除,分词准确率达到了98.41%。
(3).( !New)检测模式:只返回词库中已有的词条,很适合某些应用场合。(1.6.1版本开始)
请参考本算法的原作:http://technology.chtsai.org/mmseg/。
3、支持自定义词库。在dict文件夹下,可以随便添加/删除/更改词库和词库词条,并且对词库进行了分类。
4、简体/繁体/简繁体混合支持, 词库使用了friso的Java版本jcseg的简化词库。
5、支持中英/英中混合词的识别(维护词库可以识别任何一种组合)。例如:卡拉ok, 漂亮mm, c语言,IC卡,哆啦a梦。
7、很好的英文支持,英文标点组合词识别, 例如c++, c#, 电子邮件,网址,小数,分数,百分数。
8、(!New)自定义保留标点:你可以自定义保留在切分结果中的标点,这样可以识别出一些复杂的组合,例如:c++, k&r,code.google.com。
9、(!New)复杂英文切分的二次切分:默认Friso会保留数字和字母的原组合,开启此功能,可以进行二次切分提高检索的命中率。例如:qq2013会被切分成:qq/ 2013/ qq2013。
10、支持阿拉伯数字/小数基本单字单位的识别,例如2012年,1.75米,5吨,120斤,38.6℃。
11、自动英文圆角/半角,大写/小写转换。
12、自动中英文同义词追加/同义词匹配. (需要在friso.ini中开启friso.add_syn选项)
13、自动中英文停止词过滤。(需要在friso.ini中开启friso.clr_stw选项)
14、多配置支持, 安全的应用在多进程/多线程的情况下.
15、提供friso.ini配置文件, 可以依据你的需求轻松打造适合于你的应用的分词,请查看Friso开发帮助文档来了解详细的配置。
二、分词速度
测试环境:2.8GHZ/2G/Ubuntu
简单模式:3.8M/秒
复杂模式:1.8M/秒
三、分词测试:
文本:
歧义和同义词:研究生命起源,混合词: 做B超检查身体,x射线本质是什么,今天去奇都ktv唱卡拉ok去,哆啦a梦是一个动漫中的主角,单位和全角: 2009年8月6日开始大学之旅,岳阳今天的气温为38.6℃, 也就是101.48℉, 英文数字: bug report chenxin619315@gmail.com or visit http://code.google.com/p/jcseg, we all admire the hacker spirit!特殊数字: ① ⑩ ⑽ ㈩.
分词结果:
歧义 和 同义词 : 研究 琢磨 研讨 钻研 生命 起源 , 混合词 : 做 b超 检查 身体 , x射线 本质 是 什么 , 今天 去 奇都ktv 唱 卡拉ok 去 , 哆啦a梦 是 一个 动漫 中 的 主角 , 单位 和 全角 : 2009年 8月 6日 开始 大学 之旅 , 岳阳 今天 的 气温 为 38.6℃ , 也就是 101.48℉ , 英文 英语 数字 : bug report chenxin 619315 gmail com chenxin619315@gmail.com or visit http : / / code google com code.google.com / p / jcseg , we all admire appreciate like love enjoy the hacker spirit mind ! 特殊 数字 : ① ⑩ ⑽ ㈩ .
一、friso中文分词器 Friso是使用c语言开发的一款高性能中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。同时支持对UTF-8/GBK编码的切分。 【源码无需修改就能在各种平台下编译使用,加载完20万的词条,内存占用稳定为14.5M。】 1。目前最高版本:friso 1.6.0,同时支持对UTF-8/GBK编码的切
软件简介 Friso是使用c语言开发的一款开源的高性能中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入其他程序中,例如:MySQL,PHP,源码无需修改就能在各种平台下编译使用,加载完20万的词条,内存占用稳定为14.5M. 1。目前最高版本 :friso 1.6.1,同时支持对UTF-8/GBK编码的切分,绑定了php扩展和sphinx token插件 2。三
Friso是什么? Friso 是使用 c 语言开发的一款开源的高性能中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入其他程序中, 例如:MySQL,PHP,并且提供了php5, php7, ocaml, lua的插件实现。源码无需修改就能在各种平台下编译使用,加载完 20 万的词条,内存占用稳定为 14.5M. Friso核心功能: 中文分词:mmseg算法
Friso是什么? Friso 是使用 c 语言开发的一款开源的高性能中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入其他程序中, 例如:MySQL,PHP,并且提供了php5, php7, ocaml, lua的插件实现。源码无需修改就能在各种平台下编译使用,加载完 20 万的词条,内存占用稳定为 14.5M. Friso核心功能: 中文分词:mmseg算法
软件介绍 Friso是使用c语言开发的一款开源的高性能中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入其他程序中,例如:MySQL,PHP,源码无需修改就能在各种平台下编译使用,加载完20万的词条,内存占用稳定为14.5M. 1。目前最高版本:friso 1.6.1,同时支持对UTF-8/GBK编码的切分,绑定了php扩展和sphinx token插件 2。三种
Friso完整版本(词库, 词库管理工具, winNT下的dll文件, 开发帮助文档)下载: https://code.google.com/p/friso/ 一. 关于Friso: friso中文分词器friso是使用c语言开发的一个开源中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入其他程序中,例如:MySQL,PHP,源码无需修改就能在各种平台下编译使用,
官方网站:https://code.google.com/p/friso/ 最新动态:friso-1.6.0发布了(2014.05.08 最新版本) 开源,简单易用,很适合分词技术的研究。 一。friso中文分词器 Friso是使用C语言开发的一款高性能中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。同时支持对UTF
Friso是什么? Friso 是使用 c 语言开发的一款开源的高性能中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入其他程序中, 例如:MySQL,PHP,并且提供了php5, php7, ocaml, lua的插件实现。源码无需修改就能在各种平台下编译使用,加载完 20 万的词条,内存占用稳定为 14.5M. Friso核心功能: 中文分词:mmseg算法
关于friso中文分词组建: 欢迎报告你在使用该软件中遇到的各种问题到下面的电子邮件. 作者:陈鑫 电子邮件:chenxin619315@gmail.com 更多关于:http://code.google.com/p/friso Java版本:http://code.google.com/p/jcseg PHP版本:http://code.google.com/p/robbe * How to I
一。friso中文分词器 Friso是使用c语言开发的一款高性能中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。同时支持对UTF-8/GBK编码的切分。 【源码无需修改就能在各种平台下编译使用,加载完20万的词条,内存占用稳定为14.5M。】 1。目前最高版本:friso 1.6.1,同时支持对UTF-8/GBK编码的切
官方网站:https://code.google.com/p/friso/ 最新动态:friso-1.6.0发布了(2014.05.08 最新版本) 开源,简单易用,很适合分词技术的研究。 一。friso中文分词器 Friso是使用c语言开发的一款高性能中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。同时支持对UTF
Friso完整版本(词库, 词库管理工具, winNT下的dll文件, 开发帮助文档)下载: https://code.google.com/p/friso/ 一. 关于Friso: Friso是使用c语言开发的一款开源的高性能中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入其他程序中,例如:MySQL,PHP,源码无需修改就能在各种平台下编译使用,加载完20万
friso中文分词器库的安装及详细说明见github: https://github.com/lionsoul2014/friso/tree/bb35f949efaeb26f33723719dad9adfd4e283995 #include <friso/friso.h> #include <stdio.h> #include <string.h> //安装目录中的配置文件位置 char* s
软件简介: 语言岛智能记单词 是一款帮助用户学单词的记忆工具,使用现在流行的艾宾浩斯智能记忆引擎。《语言岛智能记单词》大大超过传统的学习方法,使记忆单词更加有效;使用本软件你可以最大限度的减少以往记单词所花费的时间 或者 增加你记单词的量。本软件免费提供多达497本教程的词汇量,用户可以根据自身需要下载教程。 软件特性: *免费-本软件完全免费(包括软件和课程)。 *跨平台-可以在Windows
程序员用各种编程语言编写指令,有些是计算机直接理解的,有些则需要中间翻译(tranlation)的步骤。如今使用的计算机语言有几百种,可以分为三大类: 机器语言 汇编语言 高级语言 任何计算机只能直接理解本身酌机器语言(machine language)。机器语言是特定计算机的自然语言,由计算机的硬件设计定义。机器语言通常由一系列数字组成(最终简化0和1),让计算机一次一个地执行最基本的操作。机器
根据 Go 开发团队和基本的算法测试,Go语言与C语言的性能差距大概在 10%~20% 之间。虽然没有官方的性能标准,但是与其它各个语言相比已经拥有非常出色的表现。 时下流行的语言大都是运行在虚拟机上,如: Java 和 Scala 使用的 JVM, C# 和 VB.NET 使用的 .NET CLR。尽管虚拟机的性能已经有了很大的提升,但任何使用 JIT 编译器和脚本语言解释器的编程语言(Ruby
字典是列表的扩展,为创建表提供了基础。 在数学术语中,字典创建了 “域→范围” 或者一般(简称)创造 “关键→价值” 元素之间的关系。 字典是键值对的有序集合,大致相当于哈希表。 字典是由域列表和范围列表之间通过位置对应关系定义的显式I/O关联定义的映射。 字典的创建使用“xkey”原语(!) ListOfDomain ! ListOfRange 最基本的字典
主要内容:fopen() 函数的返回值,fopen() 函数的打开方式,关闭文件,实例演示在C语言中,操作文件之前必须先打开文件;所谓“打开文件”,就是让程序和文件建立连接的过程。 打开文件之后,程序可以得到文件的相关信息,例如大小、类型、权限、创建者、更新时间等。在后续读写文件的过程中,程序还可以记录当前读写到了哪个位置,下次可以在此基础上继续操作。 标准输入文件 stdin(表示键盘)、标准输出文件 stdout(表示显示器)、标准错误文件 stderr(表示显示器)是由系统打开的
Uragano 旨在提供一个搭建和使用简单的高性能 RPC 框架。Uragano 是基于 netstandard2.0 开发的。Uragano 默认采用 DotNetty 实现远程通信,使用 MessagePack 进行编解码。
Genius Genius是一个开源的python中文分词组件,采用 CRF(Conditional Random Field)条件随机场算法。 Feature 支持python2.x、python3.x以及pypy2.x。 支持简单的pinyin分词 支持用户自定义break 支持用户自定义合并词典 支持词性标注 Source Install 安装git: 1) ubuntu or debian
我正在开发一个Java应用程序,它从dvi帧采集器中捕获视频。我想渲染我从这个帧采集器中实时获得的帧。但是我面临着生产力的问题——渲染非常慢,我的计算机每秒只能渲染5-6帧。尽管该设备每秒能够捕获多达40帧。我分析了我的代码,发现绘图方法相对较慢。如果我调用带有BMP图像的绘图方法,我通过ImageIO. readImage加载,比使用绘图需要20毫秒。对于图像,我从帧采集器中获得,绘制它们需要1