庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。
Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。
高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。
采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义。
能够对未知的词汇进行合理解析
示例代码:
//生成analyzer实例 Analyzer analyzer = new PaodingAnalyzer(properties); //取得Token流 TokenStream stream = analyzer.tokenStream("", reader); //重置到流的开始位置 stream.reset(); //添加工具类 TermAttribute termAtt = (TermAttribute) stream.addAttribute(TermAttribute.class); OffsetAttribute offAtt = (OffsetAttribute) stream.addAttribute(OffsetAttribute.class); //循环打印所有分词及其位置 while (stream.incrementToken()) { System.out.println(termAtt.term() + " " + offAtt.startOffset() + " " + offAtt.endOffset()); }
1. IK和Paoding的技术介绍 一、Ik分词器介绍: 优点: 采用了特有的“正向迭代最细粒度切分算法”,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。 优化的词典存储,更小的内存占用。支持用户词典扩展定义。 针对Lucene全文检索优化
Paoding 详细介绍 庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。 Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的
import java.io.BufferedReader; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStreamReader; import java.io.StringReader; import java.util.ArrayList; import java.util.C
Paoding Rose学习(一) 本文包括一下几个内容 rose环境介绍 一个简单的基于rose的web程序 web.xml介绍 自动化部署 需要的环境 eclipse/Intellij IDE Maven插件 Tomcat7.x rose环境介绍 rose是在Spring基础上构建的Web开发框架,它符合Servlet规范,且大量的采用约定优
安装solr1.3 1.安装tomcat6.0 3.解压后,打开apache-solr-1.3.0"dist目录,找到apache-solr-1.3.0.war,改名为solr.war(为了方便而已),然后把其考到tomcat的webapps目录下。 4.运行tomcat后再webapps下会自动生成solr文件夹。 5.在tomcat下的"conf"Catalina"localhost中加入so
本文转载于:http://blog.csdn.net/ivanhxy/article/details/5409541 Luncene是什么就不介绍了。 一、先去网上Down下来 paoding-analysis-2.0.4-beta,解压,在lib目录找到lucene-core-2.2.0.jar,lucene-highlighter-2.2.0.jar,commons-logging.jar 这
Spring Boot 集成 paoding-rose-jade 转载:http://blog.kail.xyz/post/2017-03-14/spring/spring-boot-rose.html paoding-rose 是一个开源框架, 它可以简化 web 应用和 RDMS 应用的开发。 因为公司的原因,所以才有幸接触到
paoding-rose-jade 最新维护地址 点击访问 rose手册计划 rose项目源代码地址:http://code.google.com/p/paoding-rose/ 目标:光大rose在国内java行业的使用,降低java入门。 人人网、糯米网释出的、开源的高效Java web开发框架。在小米米聊服务端再次被验证和使用。一个从零开始的创业公司,在大家技术背景不一的情况下,rose很简
Paoding-rose是一个开源框架,它介绍了开发web应用程序和RDMS应用程序的最佳方法。 Paoding-rose一直是主要开发框架的renren.com(人人网),mi.com(小米科技),mocha.cn(抹茶美妆)。 我们也收到报告,paoding-rose选择在一些应用为qunar.com(去哪儿),focus.cn(焦点房产)。 (如果您的公司也使用paoding-rose,欢迎
Genius Genius是一个开源的python中文分词组件,采用 CRF(Conditional Random Field)条件随机场算法。 Feature 支持python2.x、python3.x以及pypy2.x。 支持简单的pinyin分词 支持用户自定义break 支持用户自定义合并词典 支持词性标注 Source Install 安装git: 1) ubuntu or debian
介绍 现阶段,应用于搜索引擎和自然语言处理的中文分词库五花八门,使用方式各不统一,虽然有适配于Lucene和Elasticsearch的插件,但是我们想在多个库之间选择更换时,依旧有学习时间。 Hutool针对常见中文分词库做了统一接口封装,既定义一套规范,隔离各个库的差异,做到一段代码,随意更换。 Hutool现在封装的引擎有: Ansj HanLP IKAnalyzer Jcseg Jieba
本文向大家介绍PHPAnalysis中文分词类详解,包括了PHPAnalysis中文分词类详解的使用技巧和注意事项,需要的朋友参考一下 PHPAnalysis是目前广泛使用的中文分词类,使用反向匹配模式分词,因此兼容编码更广泛,现将其变量与常用函数详解如下: 一、比较重要的成员变量 $resultType = 1 生成的分词结果数据类型(1 为全部, 2为 词典词汇及单个中日韩简
中文分词是怎么走到今天的 话说上个世纪,中文自动分词还处于初级阶段,每句话都要到汉语词表中查找,有没有这个词?有没有这个词?所以研究集中在:怎么查找最快、最全、最准、最狠......,所以就出现了正向最大匹配法、逆向最大匹配法、双向扫描法、助词遍历法......,用新世纪比较流行的一个词来形容就是:你太low了! 中文自动分词最难的两个问题:1)歧义消除;2)未登陆词识别。说句公道话,没有上个世纪
关于中文分词的详细配置实例和分词词典的自定义设置,可以访问Coreseek网站中文分词核心配置查看。 核心配置: charset_dictpath = /usr/local/mmseg3/etc/ charset_type = zh_cn.utf-8 #charset_table = .................... #需将原有的该配置注释掉 ngram_le