当前位置：首页 > 软件库 > 程序开发 > 中文分词库 >

PHPCWS

中文分词库

授权协议 BSD

开发语言 PHP

所属分类程序开发、中文分词库

软件类型开源软件

地区国产

投递者令狐昌胤

操作系统跨平台

开源组织无

适用人群未知

软件概览

PHPCWS 是一款开源的PHP中文分词扩展，目前仅支持Linux/Unix系统，该项目现在已改名为 HTTPCWS，此项目不再继续维护。

PHPCWS 先使用“ICTCLAS 3.0 共享版中文分词算法”的API进行初次分词处理，再使用自行编写的“逆向最大匹配算法”对分词和进行词语合并处理，并增加标点符号过滤功能，得出分词结果。

ICTCLAS（Institute of Computing Technology, Chinese Lexical Analysis System）是中国科学院计算技术研究所在多年研究工作积累的基础上，基于多层隐马模型研制出的汉语词法分析系统，主要功能包括中文分词；词性标注；命名实体识别；新词识别；同时支持用户词典。ICTCLAS经过五年精心打造，内核升级6次，目前已经升级到了ICTCLAS3.0，分词精度 98.45%，各种词典数据压缩后不到3M。ICTCLAS在国内973专家组组织的评测中活动获得了第一名，在第一届国际中文处理研究机构SigHan 组织的评测中都获得了多项第一名，是当前世界上最好的汉语词法分析器。

ICTCLAS 3.0 商业版是收费的，而免费提供的 ICTCLAS 3.0 共享版不开源，词库是根据人民日报一个月的语料得出的，很多词语不存在。所以本人对ICTCLAS分词后的结果，再采用逆向最大匹配算法，根据自己补充的一个9万条词语的自定义词库（与ICTCLAS词库中的词语不重复），对ICTCLAS分词结果进行合并处理，输出最终分词结果。

由于 ICTCLAS 3.0 共享版只支持GBK编码，因此，如果是UTF-8编码的字符串，可以先用PHP的iconv函数转换成GBK编码，再用phpcws_split函数进行分词处理，最后转换回UTF-8编码。

相关资料

genius中文分词

Genius Genius是一个开源的python中文分词组件，采用 CRF(Conditional Random Field)条件随机场算法。 Feature 支持python2.x、python3.x以及pypy2.x。支持简单的pinyin分词支持用户自定义break 支持用户自定义合并词典支持词性标注 Source Install 安装git: 1) ubuntu or debian
中文分词封装-TokenizerUtil

介绍现阶段，应用于搜索引擎和自然语言处理的中文分词库五花八门，使用方式各不统一，虽然有适配于Lucene和Elasticsearch的插件，但是我们想在多个库之间选择更换时，依旧有学习时间。 Hutool针对常见中文分词库做了统一接口封装，既定义一套规范，隔离各个库的差异，做到一段代码，随意更换。 Hutool现在封装的引擎有： Ansj HanLP IKAnalyzer Jcseg Jieba
PHPAnalysis中文分词类详解

本文向大家介绍PHPAnalysis中文分词类详解，包括了PHPAnalysis中文分词类详解的使用技巧和注意事项，需要的朋友参考一下 PHPAnalysis是目前广泛使用的中文分词类，使用反向匹配模式分词，因此兼容编码更广泛，现将其变量与常用函数详解如下：一、比较重要的成员变量 $resultType = 1 生成的分词结果数据类型(1 为全部， 2为词典词汇及单个中日韩简
探究中文分词的艺术

中文分词是怎么走到今天的话说上个世纪，中文自动分词还处于初级阶段，每句话都要到汉语词表中查找，有没有这个词？有没有这个词？所以研究集中在：怎么查找最快、最全、最准、最狠......，所以就出现了正向最大匹配法、逆向最大匹配法、双向扫描法、助词遍历法......，用新世纪比较流行的一个词来形容就是：你太low了！中文自动分词最难的两个问题：1）歧义消除；2）未登陆词识别。说句公道话，没有上个世纪
10.1.中文分词核心配置

关于中文分词的详细配置实例和分词词典的自定义设置，可以访问Coreseek网站中文分词核心配置查看。核心配置： charset_dictpath = /usr/local/mmseg3/etc/ charset_type = zh_cn.utf-8 #charset_table = .................... #需将原有的该配置注释掉 ngram_le
python中文分词库jieba使用方法详解

本文向大家介绍python中文分词库jieba使用方法详解，包括了python中文分词库jieba使用方法详解的使用技巧和注意事项，需要的朋友参考一下安装python中文分词库jieba 法1：Anaconda Prompt下输入conda install jieba 法2：Terminal下输入pip3 install jieba 1、分词 1.1、CUT函数简介 cut(sentence,

同类工具

ctbparser jieba.NET CC-CEDICT kcws SCWS zhparser dict_build PHPCWS

相关阅读

docker 安装solr8.6.2 配置中文分词器的方法在python中的单词上分割语音音频文件从文本文件中提取单词替换正文中的单词 elasticsearch为同义词/词干定制分数

相关文章

最新华为OD机试真题-单词大师(100分)文件分配表词表破解分析发现文件 PDFBox分割PDF文档

相关问答

Lucene：用部分词搜索如何在Java中获得文本文件的单词列表和单词数？比较不同文件中的单词 antlr4 lexer谓词文档 sklearn中带有词包和附加情感特征的文本分类器

相关文档

R 统计分析语言中文教程 MathJax 中文文档 PhoneGap 中文文档 MooTools 中文文档 prototype.js 中文文档