当前位置: 首页 > 软件库 > 程序开发 > 中文分词库 >

SCWS

简易中文分词系统
授权协议 未知
开发语言 PHP
所属分类 程序开发、 中文分词库
软件类型 开源软件
地区 国产
投 递 者 公冶嘉
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

SCWS 是 Simple Chinese Words Segmentation 的缩写,即简易中文分词系统

这是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。词是汉语的基本语素单位,而书写的时候不像英语会在词之间用空格分开, 所以如何准确而又快速的分词一直是中文分词的攻关难点。

SCWS 在概念上并无创新成分,采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些中小型搜索引擎、关键字提取等场合运用。 SCWS 采用纯 C 代码开发,以 Unix-Like OS 为主要平台环境,提供共享函数库,方便植入各种现有软件系统。此外它支持 GBK,UTF-8,BIG5 等汉字编码,切词效率高。

  • 关于scws的详细介绍,去官方网站看作者lightman的说明。http://www.xunsearch.com/scws/ 这里一句话总结下,scws是一套用来提取文本中指定关键词的软件。文本有大有小,指定关键字则由词库文件来决定。关键字提取出来,大有可用。 1可以放入网页中的<meta name="keywords" content=""/> ,增加网页的权重 2搜索词推荐、关键字广告 3结合

  • SCWS-1.x.x 自述文件 (Written by hightman) HomePage: http://www.ftphp.com/scws $Id: README,v 1.4 2008/12/21 04:41:37 hightman Exp $ > ----------------------------------------------------------- < 1. 简介 2.

  • 一、安装scws ============================================ 1. 取得 scws-1.2.0 的代码 wget http://www.ftphp.com/scws/down/scws-1.2.0.tar.bz2 2. 解开压缩包 [hightman@d1 ~]$ tar xvjf scws-1.2.0.tar.bz2 3. 进入目录执行配置脚本和编译

  • SCWS-1.2.2 安装说明 1. 取得scws-1.2.2 的代码 wgethttp://www.xunsearch.com/scws/down/scws-1.2.2.tar.bz2   2. 解开压缩包 [hightman@d1~]$ tar xvjf scws-1.2.2.tar.bz2   3. 进入目录执行配置脚本和编译 [hightman@d1~]$ cd scws-1.2.2[hi

  • PostgreSQL基于SCWS、Zhparser插件全文检索环境安装 提到全文检索,我们会想到Elasticsearch、Lucene等功能强大的搜索引擎,但或许我们仅需要实现一些简单的全站搜索或是字符匹配功能,此时引入Elasticsearch、Lucene搜索引擎或许过于重量,使用这些重量级的搜索引擎得需要性能强悍的服务器,还需要处理数据同步与数据一致性问题。 PostgreSQL数据库自身

  • 最近因为要进行搜索功能的实现,而实现搜索给用户一个更好的体验就需要对输入的内容进行分词,所以静下心来,好好看看分词的知识 并记录下来,还是很有必要的。 今天主要做了写关于SCWS的分词的词库的一些了解学习。 首先就是需要知道SCWS这个分词的词库是什么格式的,才能进行自定义词库,并生成词库文件。 1.词库的格式 # WORD    TF    IDF    ATTR 关键词   10  10  词

  • 导语 关于分词,现在有很多解决方法,根据自己需要进行选择。项目中用到了 SCWS ,安装好记录下。 SCWS SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。 这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。 如上,SCWS 是一套分词系统。虽然这套系统可能有些过时,算法不是很精确,但在某些特

  • 软件课设中php用到了这个中文分词的模块,参考了官网的安装教程安装在了/usr/local/scws目录下,然后就是配置php的配置文件,让php加载这个模块,官方文档说得比较清楚了,这里记录自己的安装配置过程中的一些问题: 1.php的配置文件是php.ini案例说应该在/etc/php5/目录下,可是竟然在/etc/php5/apache2这个目录下,而且往这个目录写下路径貌似不生效,后来看到

  • 1. 根据您当前用的 PHP 版本,下载相应已编译好的 php_scws.dll 扩展库。 目前支持 PHP-4.4.x 和 PHP-5.2.x 系列,下载地址分别为: php-4.4.x: http://www.xunsearch.com/scws/down/php-4.4.x/php_scws.dll php-5.2.x: http://www.xunsearch.com/

  • SCWS-1.2.3 中文分词扩展安装(http://www.xunsearch.com/scws/docs.php#instscws)  安装 libscws 这套 C-API   wget http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2   tar xvjf scws-1.2.3.tar.bz2   cd scws-1.2.3   .

 相关资料
  • 2011-06-26更新至2.0版 1.增加规则 2.增加词性分词 3.JSON格式返回数据 http-scws(基于scws的http协议中文分词),软件基于scws 1.1.7版本二次开发,基于libevent进行http封装,请求更简单 功能: 1.词库为文本文件方式,增加、删除更方便 2.支持gbk与utf-8(基于scws功能) 3.运行中可修改词库,不停服务只需一个命令即可使新词库生效

  • Genius Genius是一个开源的python中文分词组件,采用 CRF(Conditional Random Field)条件随机场算法。 Feature 支持python2.x、python3.x以及pypy2.x。 支持简单的pinyin分词 支持用户自定义break 支持用户自定义合并词典 支持词性标注 Source Install 安装git: 1) ubuntu or debian

  • 本文向大家介绍PyQt5实现简易电子词典,包括了PyQt5实现简易电子词典的使用技巧和注意事项,需要的朋友参考一下 PyQt5是python中一个非常实用的GUI编程模块,功能十分强大。刚刚学完了Pyqt的编程,就迫不及待的写出了一个电子词典GUI程序。整个程序使用qt Desiner把整个gui界面做好,槽函数则自己写好的。电子词典实现了查询单词,查询历史记录,收藏和查看单词本的功能,另外为了是

  • 本文向大家介绍Java简易抽奖系统小项目,包括了Java简易抽奖系统小项目的使用技巧和注意事项,需要的朋友参考一下 本文实例为大家分享了Java简易抽奖系统的具体代码,供大家参考,具体内容如下 需求: 实现一个抽奖系统 1 注册 2 登录 3 抽奖  必须先注册  再登陆  再抽奖 随机产生4个随机数作为幸运卡号  用户注册后 登录的时候  用户名密码输入判断只有三次机会 需要做到  还有2次  

  • 介绍 现阶段,应用于搜索引擎和自然语言处理的中文分词库五花八门,使用方式各不统一,虽然有适配于Lucene和Elasticsearch的插件,但是我们想在多个库之间选择更换时,依旧有学习时间。 Hutool针对常见中文分词库做了统一接口封装,既定义一套规范,隔离各个库的差异,做到一段代码,随意更换。 Hutool现在封装的引擎有: Ansj HanLP IKAnalyzer Jcseg Jieba

  • 本文向大家介绍易语言分割文本的方法简介,包括了易语言分割文本的方法简介的使用技巧和注意事项,需要的朋友参考一下 易语言分割文本,这个就是把文本分割出来,我给大家操作。 1、打开易语言新建一个windows程序进入下图界面 2、我们输入 分割文本 3、展开发现有3个参数 4、第一个参数 我们输入  “aa bb” 是被分割的文本 第二个参数 我们输入   “ ” 这个就是用来分割的 5、我们输入调试