当前位置：首页 > 软件库 > 程序开发 > 中文分词库 >

ICTCLAS4J

Lucene中文分词库

授权协议 Apache

开发语言 Java

所属分类程序开发、中文分词库

软件类型开源软件

地区国产

投递者百里俭

操作系统跨平台

开源组织无

适用人群未知

软件官网

官方下载

软件概览

ictclas4j中文分词系统是sinboy在中科院张华平和刘群老师的研制的FreeICTCLAS的基础上完成的一个java开源分词项目，简化了原分词程序的复杂度，旨在为广大的中文分词爱好者一个更好的学习机会。

使用案例

ictclas4j_0[1].9.1 基于java语言的分词系统 - 下载 - 搜珍网

ictclas4j/.project ictclas4j/.classpath ictclas4j/src/org/ictclas4j/bean/ModifyTable.java ictclas4j/src/org/ictclas4j/bean/Atom.java ictclas4j/src/org/ictclas4j/bean/WordItem.java ictclas4j/src/org/ic
Paoding, Ik, Jeasy, Ictclas4j分词工具

1.Paoding 版本： 2.0.4 实现类： PaodingAnalyzer 依赖包： lucene 2.4 使用方法：主要通过lucene的接口实现, Analyser#tokenStream方法切词效果：传统/意义/意义上/上的/几何/几何学/研究/图形/形的/形状/大/大小/等/性质备注： paoding的切词会漏字(食字)，上面的结果就食了 ‘在’ 字；总会进行最小粒度切分，
ictclas4j 分词工具包安装流程

首先把 ictclasj解压缩，然后 1.把 Data文件夹整个拷贝到 Eclipse项目的文件夹下, 2.而 bin目录下的 org文件夹整个拷贝到你 Eclipse项目的 bin目录下，(将class文件存进去) 3.把src目录下的org文件夹整个拷贝到 Eclipse项目的src目录下。 4.把目录中commons-lang-2.4.jar 加到项目中(右键新建folder--设置名字为
ictclas4j进行中文分词

ICTCLAS是中科院计算所开发的中文分词程序包，在国内一直有着良好的口碑和很高的使用率。之前一直只有 C++的版本提供，而现在C#，Delphi和Java版本已经纷纷出炉。下面是java版的例子。纯Java版本的ICTCLAS（即ictclas4j），下载地址：http://pan.baidu.com/s/1jGGFXNS（这是0.9.1版的，官网经常打不开，这是我在百度云盘的分享） 1、解压
ictclas4j bug总结

1.漏字 Eg: 林心如主演的倾世王妃分词结果为：林如/nr 主演/v 的/u 倾/v 世/ng 王妃/n 漏掉了“心”字解决办法：将PosTagger.java中personRecognize方法里的如下if语句直接注释掉 if (sn.getPos() < 4 && unknownDict.getFreq(sn.getWord(), sn.getPos())
java使用ictclas4j分词时出现NullPointerException错误寻高手帮忙

程序片段：SegTagsegTag=newSegTag(1);try{SegResultseg_res=segTag.split(str);StringsegString=seg_res.getFinalResult();System.out.println(segString);}catch(Throwablet){t.pri... 程序片段： SegTag segTag = new SegTa
ICTCLAS5.0与ictclas4j分词工具

从一开始用的分词工具一直是中科院的ICTCLAS中文词法分析系统，被称为是世界上最好的中文词法分析器，对于ICTCLAS中文词法分析器的其他信息可以Google或者百度百科寻找答案。之前用的是ictclas4j版本，该版本ictclas4j的编码，等于是把中科院的free ictclas（c++版本）翻译了一遍，没有考虑c和 java语言的区别。 java语言
ictclas4j分词模块

ictclas4j中文分词模块ms也是采用了Viterbi算法进行切词，在切词基础上进行词性标注。具体可参阅其代码： package org.ictclas4j.segment; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamRe

相关资料

genius中文分词

Genius Genius是一个开源的python中文分词组件，采用 CRF(Conditional Random Field)条件随机场算法。 Feature 支持python2.x、python3.x以及pypy2.x。支持简单的pinyin分词支持用户自定义break 支持用户自定义合并词典支持词性标注 Source Install 安装git: 1) ubuntu or debian
中文分词封装-TokenizerUtil

介绍现阶段，应用于搜索引擎和自然语言处理的中文分词库五花八门，使用方式各不统一，虽然有适配于Lucene和Elasticsearch的插件，但是我们想在多个库之间选择更换时，依旧有学习时间。 Hutool针对常见中文分词库做了统一接口封装，既定义一套规范，隔离各个库的差异，做到一段代码，随意更换。 Hutool现在封装的引擎有： Ansj HanLP IKAnalyzer Jcseg Jieba
PHPAnalysis中文分词类详解

本文向大家介绍PHPAnalysis中文分词类详解，包括了PHPAnalysis中文分词类详解的使用技巧和注意事项，需要的朋友参考一下 PHPAnalysis是目前广泛使用的中文分词类，使用反向匹配模式分词，因此兼容编码更广泛，现将其变量与常用函数详解如下：一、比较重要的成员变量 $resultType = 1 生成的分词结果数据类型(1 为全部， 2为词典词汇及单个中日韩简
探究中文分词的艺术

中文分词是怎么走到今天的话说上个世纪，中文自动分词还处于初级阶段，每句话都要到汉语词表中查找，有没有这个词？有没有这个词？所以研究集中在：怎么查找最快、最全、最准、最狠......，所以就出现了正向最大匹配法、逆向最大匹配法、双向扫描法、助词遍历法......，用新世纪比较流行的一个词来形容就是：你太low了！中文自动分词最难的两个问题：1）歧义消除；2）未登陆词识别。说句公道话，没有上个世纪
10.1.中文分词核心配置

关于中文分词的详细配置实例和分词词典的自定义设置，可以访问Coreseek网站中文分词核心配置查看。核心配置： charset_dictpath = /usr/local/mmseg3/etc/ charset_type = zh_cn.utf-8 #charset_table = .................... #需将原有的该配置注释掉 ngram_le
python中文分词库jieba使用方法详解

本文向大家介绍python中文分词库jieba使用方法详解，包括了python中文分词库jieba使用方法详解的使用技巧和注意事项，需要的朋友参考一下安装python中文分词库jieba 法1：Anaconda Prompt下输入conda install jieba 法2：Terminal下输入pip3 install jieba 1、分词 1.1、CUT函数简介 cut(sentence,
如何使用分类词词典从文本片段中提取特定词？

我想从数据帧中的文本中提取特定的单词。这些单词我已经输入到字典的列表中，它们属于某些类别（键）。由此，我想创建与存储单词的类别相对应的列。和往常一样，最好用例子来说明：我有一个数据框：它创建表：还有一本我想从中提取的分类词词典。这些单词都是没有符号的自然语言单词，可以包括短语，例如本例中的“alloy wheels”（这不一定是字典，我只是觉得这是最好的方法）：根据这个，我想创建一个如下所
word分词

word分词是一个Java实现的分布式的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为，能自定义用户词库、自动检测词库变化、支持大规模分布式环境，能灵活指定多种分词算法，能使用refine功能灵活控制分词结果，还能使用词频统计、词性标注、同义标注、反

ICTCLAS4J

同类工具

相关阅读

相关文章

相关问答

相关文档