当前位置：首页 > 软件库 > 程序开发 > 中文分词库 >

phpSplit

PHP 中文分词包

授权协议 GPL

开发语言 PHP

所属分类程序开发、中文分词库

软件类型开源软件

地区国产

投递者魏高邈

操作系统跨平台

开源组织无

适用人群未知

软件概览

phpSplit 是一个基于php开发的中文分词库。

居于Unicode编码词典的php分词器

只适用于php5，必要函数 iconv
本程序是使用RMM逆向匹配算法进行分词的，词库需要特别编译，本类里提供了 MakeDict() 方法
简单操作流程： SetSource -> StartAnalysis -> GetResult
对主词典使用特殊格式进行编码, 不需要载入词典到内存操作

使用

首先确保使用php为5.3+
安装composer

composer install

require __DIR__ .'/vendor/autoload.php';
$split = new Split();
var_dump( $split->simple("您好 phpSplit"));
$this->assertTrue(True);

array(3) {
  [0] =>
  string(0) ""
  [1] =>
  string(6) "您好"
  [2] =>
  string(8) "phpSplit"
}

分词结果后缀说明

名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w

同事增加了以下3类标记*专有名词的分类标记，即人名nr，地名ns，团体机关单位名称nt，其他专有名词nz；*语素的子类标记，即名语素Ng，动语素Vg，形容语素Ag，时语素Tg，副语素Dg等；*动词和形容词的子类标记，即名动词vn（具有名词特性的动词），名形词an（具有名词特性的形容词），副动词vd（具有副词特性的动词），副形词ad（具有副词特性的形容词）

合计约40个左右。

欢迎大家完善

相关资料

genius中文分词

Genius Genius是一个开源的python中文分词组件，采用 CRF(Conditional Random Field)条件随机场算法。 Feature 支持python2.x、python3.x以及pypy2.x。支持简单的pinyin分词支持用户自定义break 支持用户自定义合并词典支持词性标注 Source Install 安装git: 1) ubuntu or debian
中文分词封装-TokenizerUtil

介绍现阶段，应用于搜索引擎和自然语言处理的中文分词库五花八门，使用方式各不统一，虽然有适配于Lucene和Elasticsearch的插件，但是我们想在多个库之间选择更换时，依旧有学习时间。 Hutool针对常见中文分词库做了统一接口封装，既定义一套规范，隔离各个库的差异，做到一段代码，随意更换。 Hutool现在封装的引擎有： Ansj HanLP IKAnalyzer Jcseg Jieba
PHPAnalysis中文分词类详解

本文向大家介绍PHPAnalysis中文分词类详解，包括了PHPAnalysis中文分词类详解的使用技巧和注意事项，需要的朋友参考一下 PHPAnalysis是目前广泛使用的中文分词类，使用反向匹配模式分词，因此兼容编码更广泛，现将其变量与常用函数详解如下：一、比较重要的成员变量 $resultType = 1 生成的分词结果数据类型(1 为全部， 2为词典词汇及单个中日韩简
探究中文分词的艺术

中文分词是怎么走到今天的话说上个世纪，中文自动分词还处于初级阶段，每句话都要到汉语词表中查找，有没有这个词？有没有这个词？所以研究集中在：怎么查找最快、最全、最准、最狠......，所以就出现了正向最大匹配法、逆向最大匹配法、双向扫描法、助词遍历法......，用新世纪比较流行的一个词来形容就是：你太low了！中文自动分词最难的两个问题：1）歧义消除；2）未登陆词识别。说句公道话，没有上个世纪
10.1.中文分词核心配置

关于中文分词的详细配置实例和分词词典的自定义设置，可以访问Coreseek网站中文分词核心配置查看。核心配置： charset_dictpath = /usr/local/mmseg3/etc/ charset_type = zh_cn.utf-8 #charset_table = .................... #需将原有的该配置注释掉 ngram_le
如何使用分类词词典从文本片段中提取特定词？

我想从数据帧中的文本中提取特定的单词。这些单词我已经输入到字典的列表中，它们属于某些类别（键）。由此，我想创建与存储单词的类别相对应的列。和往常一样，最好用例子来说明：我有一个数据框：它创建表：还有一本我想从中提取的分类词词典。这些单词都是没有符号的自然语言单词，可以包括短语，例如本例中的“alloy wheels”（这不一定是字典，我只是觉得这是最好的方法）：根据这个，我想创建一个如下所
word分词

word分词是一个Java实现的分布式的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为，能自定义用户词库、自动检测词库变化、支持大规模分布式环境，能灵活指定多种分词算法，能使用refine功能灵活控制分词结果，还能使用词频统计、词性标注、同义标注、反
文本挖掘的分词原理

现代分词都是基于统计的分词，而统计的样本内容来自于一些标准的语料库。假如有一个句子：“小明来到荔湾区”，我们期望语料库统计后分词的结果是："小明/来到/荔湾/区"，而不是“小明/来到/荔/湾区”。那么如何做到这一点呢？从统计的角度，我们期望"小明/来到/荔湾/区"这个分词后句子出现的概率要比“小明/来到/荔/湾区”大。如果用数学的语言来说说，如果有一个句子S,它有m种分词选项如下：$$A_{11

同类工具

jieba.NET robbe FoolNLTK finalseg cppjieba ChineseWordSegmentation SemanticAnalysis scseg

相关阅读

docker 安装solr8.6.2 配置中文分词器的方法在python中的单词上分割语音音频文件从文本文件中提取单词替换正文中的单词 elasticsearch为同义词/词干定制分数

相关文章

最新华为OD机试真题-单词大师(100分)文件分配表词表破解分析发现文件 PDFBox分割PDF文档

相关问答

从文本文件中选择随机单词 Lucene：用部分词搜索如何在Java中获得文本文件的单词列表和单词数？比较不同文件中的单词 antlr4 lexer谓词文档

相关文档

R 统计分析语言中文教程 MathJax 中文文档 PhoneGap 中文文档 MooTools 中文文档 prototype.js 中文文档