当前位置：首页 > 软件库 > 程序开发 > 中文分词库 >

Paoding

中文分词库

授权协议 Apache

开发语言 Java

所属分类程序开发、中文分词库

软件类型开源软件

地区国产

投递者锺离逸春

操作系统跨平台

开源组织无

适用人群未知

软件官网

软件文档

官方下载

软件概览

庖丁中文分词库是一个使用Java开发的，可结合到Lucene应用中的，为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白，致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。

Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻，采用完全的面向对象设计，构思先进。

高效率：在PIII 1G内存个人机器上，1秒可准确分词 100万 汉字。

采用基于 不限制个数 的词典文件对文章进行有效切分，使能够将对词汇分类定义。

能够对未知的词汇进行合理解析

示例代码：

//生成analyzer实例 
Analyzer analyzer = new PaodingAnalyzer(properties); 
//取得Token流 
TokenStream stream = analyzer.tokenStream("", reader); 

//重置到流的开始位置 
stream.reset(); 

//添加工具类 
TermAttribute termAtt = (TermAttribute) stream.addAttribute(TermAttribute.class); 
OffsetAttribute offAtt = (OffsetAttribute) stream.addAttribute(OffsetAttribute.class); 

//循环打印所有分词及其位置 
while (stream.incrementToken()) {
    System.out.println(termAtt.term() + " " + offAtt.startOffset() + " " + offAtt.endOffset()); 
}

使用案例

中文分词器IK和Paoding技术对比

1. IK和Paoding的技术介绍一、Ik分词器介绍：优点：采用了特有的“正向迭代最细粒度切分算法”，具有60万字/秒的高速处理能力。采用了多子处理器分析模式，支持：英文字母（IP地址、Email、URL）、数字（日期，常用中文数量词，罗马数字，科学计数法），中文词汇（姓名、地名处理）等分词处理。优化的词典存储，更小的内存占用。支持用户词典扩展定义。针对Lucene全文检索优化
paoding分词

Paoding 详细介绍庖丁中文分词库是一个使用Java开发的，可结合到Lucene应用中的，为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白，致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。 Paoding's Knives 中文分词具有极高效率和高扩展性。引入隐喻，采用完全的
paoding--分词

import java.io.BufferedReader; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStreamReader; import java.io.StringReader; import java.util.ArrayList; import java.util.C
Paoding Rose学习（一）

Paoding Rose学习（一）本文包括一下几个内容 rose环境介绍一个简单的基于rose的web程序 web.xml介绍自动化部署需要的环境 eclipse/Intellij IDE Maven插件 Tomcat7.x rose环境介绍　　rose是在Spring基础上构建的Web开发框架，它符合Servlet规范，且大量的采用约定优
solr 和paoding整合

安装solr1.3 1.安装tomcat6.0 3.解压后，打开apache-solr-1.3.0"dist目录，找到apache-solr-1.3.0.war,改名为solr.war(为了方便而已)，然后把其考到tomcat的webapps目录下。 4.运行tomcat后再webapps下会自动生成solr文件夹。 5.在tomcat下的"conf"Catalina"localhost中加入so
Luncene 之一：创建索引(Luncene + paoding)

本文转载于:http://blog.csdn.net/ivanhxy/article/details/5409541 Luncene是什么就不介绍了。一、先去网上Down下来 paoding-analysis-2.0.4-beta，解压，在lib目录找到lucene-core-2.2.0.jar，lucene-highlighter-2.2.0.jar，commons-logging.jar 这
Spring Boot 集成 paoding-rose-jade

Spring Boot 集成 paoding-rose-jade 转载：http://blog.kail.xyz/post/2017-03-14/spring/spring-boot-rose.html paoding-rose 是一个开源框架, 它可以简化 web 应用和 RDMS 应用的开发。因为公司的原因，所以才有幸接触到
paoding-rose手册

paoding-rose-jade 最新维护地址点击访问 rose手册计划 rose项目源代码地址：http://code.google.com/p/paoding-rose/ 目标：光大rose在国内java行业的使用，降低java入门。人人网、糯米网释出的、开源的高效Java web开发框架。在小米米聊服务端再次被验证和使用。一个从零开始的创业公司，在大家技术背景不一的情况下，rose很简

Paoding

同类工具

相关阅读

相关文章

相关问答

相关文档