当前位置：首页 > 软件库 > 程序开发 > 中文分词库 >

IKAnalyzer

中文分词库

授权协议 Apache

开发语言 Java

所属分类程序开发、中文分词库

软件类型开源软件

地区国产

投递者南宫阳冰

操作系统跨平台

开源组织无

适用人群未知

软件官网

官方下载

软件概览

IK Analyzer 是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。

IK Analyzer 2012特性:

采用了特有的“正向迭代最细粒度切分算法“，支持细粒度和智能分词两种切分模式；
在系统环境：Core2 i7 3.4G双核，4G内存，window 7 64位， Sun JDK 1.6_29 64位普通pc环境测试，IK2012具有160万字/秒（3000KB/S）的高速处理能力。
2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。
采用了多子处理器分析模式，支持：英文字母、数字、中文词汇等分词处理，兼容韩文、日文字符
优化的词典存储，更小的内存占用。支持用户词典扩展定义。特别的，在2012版本，词典支持中文，英文，数字混合词语。

IKAnalyzer 同时还有一个非官方的 .NET 版本 —— IKAnalyzer.NET

使用案例

JAVA 中配置IKAnalyzer扩展词库和停止词库

1、后缀名.dic的词典文件，必须如使用文档里所说的无BOM的UTF-8编码保存的文件。如果不确定什么是无BOM的UTF-8编码，最简单的方式就是用Notepad++编辑器打开，Encoding->选择 Encoding in UTF-8 without BOM，然后保存。 2、项目preferences 里编码选择 utf8。 3、词典和IKAnalyzer.cfg.xml配置文件的路径
大数据工具：IKAnalyzer分词工具介绍与使用

简单介绍IKAnalyzer分词工具与使用简介以下简介参考前辈和项目文档介绍为什么要分词呢，当大数据处理中要提取语句的特征值，进行向量计算。所有我们要用开源分词工具把语句中的关键词提取出来。 IK Analyzer是什么呢，就是我们需要的这个工具，是基于java开发的轻量级的中文分词工具包。它是以开源项目Luence为主体的，结合词典分词和文法分析算法的中文分词组件。IK有很多版本，在201

IKAnalyzer

同类工具

相关阅读

相关文章

相关问答

相关文档