当前位置: 首页 > 软件库 > 程序开发 > 中文分词库 >

http-scws

http协议中文分词
授权协议 Apache
开发语言 C/C++ PHP
所属分类 程序开发、 中文分词库
软件类型 开源软件
地区 国产
投 递 者 宋昕
操作系统 Linux
开源组织
适用人群 未知
 软件概览
2011-06-26更新至2.0版
1.增加规则
2.增加词性分词
3.JSON格式返回数据

http-scws(基于scws的http协议中文分词),软件基于scws 1.1.7版本二次开发,基于libevent进行http封装,请求更简单

功能:

1.词库为文本文件方式,增加、删除更方便
2.支持gbk与utf-8(基于scws功能)
3.运行中可修改词库,不停服务只需一个命令即可使新词库生效
4.最大150K文本提交
5.可分词、提取高频词
6.支持GET与POST方式
7.支持短词、二元、主要单字、全部单字(基于scws功能)
8.支持标点过滤(基于scws功能)

简单测试结果:

AMD 64位台式机四核CPU,程序加载词库后占用21M内存,使用10进程不间断请求请求,内存无增加,CPU使用率在30%多

此项目开源,压缩包里有源代码及编译后的程序,有特殊需要的可自行修改源程序,编译后程序的编译环境为:amd 64位 4核CPU,centos 5.5 64位系统,内核为:2.6.18-194.el5

  • README of SCWS $Id$ SCWS 简介 SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。 这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。词是 中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开,所以如何准确并快速分词一直 是中文分词的攻关难点。 SCWS 采用纯 C

  • 以 Linux(FreeBSD) 操作系统为例,实践证明:CentOS也没问题。 1. 取得 scws-1.2.3 的代码 wget http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2 2. 解开压缩包 [hightman@d1 ~]$ tar xvjf scws-1.2.3.tar.bz2 3. 进入目录执行配置脚本和编译 [hightma

  • scws 中文分词官方文档地址 :http://www.xunsearch.com/scws/docs.php 取得 scws-1.2.3 的代码 wget http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2 解开压缩包 tar xvjf scws-1.2.3.tar.bz2 进入解压程序目录执行配置脚本和编译 cd scws-1.2.3 .

  • 关于scws的详细介绍,去官方网站看作者lightman的说明。http://www.xunsearch.com/scws/ 这里一句话总结下,scws是一套用来提取文本中指定关键词的软件。文本有大有小,指定关键字则由词库文件来决定。关键字提取出来,大有可用。 1可以放入网页中的 ,增加网页的权重 2搜索词推荐、关键字广告 3结合搜索推荐相关内容 4欢迎补充…… A 安装 1 获取最新版以及安装

  • 前言: 为了折腾PHP分词从Windows版本到Linux版本爬了一个又一个的坑,SCWS 中文分词目前已经很快地与时俱进——立马支持了性能高出老版PHP整整3倍的PHP7,同时更新了2016版词库。本文主要列出一个安装纪要及部分困惑点的解决方法,供大家更方便的使用SCWS-1.2.3分词工具,避开坑与雷,同时也感谢作者的无私奉献,有你网络更精彩! 环境: CentOS7.0 64bit Web环

  • centOs 环境下安装 scws1、安装 bzip2 及 gcc gcc-c++ yum install bzip2 yum -y install gcc gcc-c++ 2、下载 scws-1.2.3 的代码 wget http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2 3、解压 tar xvjf scws-1.2.3.tar.bz2 4

  • PHP中使用SCWS中文分词 SCWS 简介 SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。 这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开,所以如何准确并快速分词一直是中文分词的攻关难点。 SCWS 采用纯 C 语言开发,不

  • scws 安装 $ wget -q -O - http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2 | tar xjf - $ cd scws-1.2.3 $ ./configure --prefix=/usr/local/scws $ make & make install #试试执行 scws-cli 文件(检查有没有安装成功) $ /us

  • 简介 SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。 这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。 词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开, 所以如何准确并快速分词一直是中文分词的攻关难点。 SCWS 采用纯 C 语言开发,不依赖任何外部库函数,可直接使用动态链

  • [2012] SCWS-1.2.0 发布,BSD协议、支持自定义词库、PHP5.4 [2012] SCWS-1.2.0 发布,BSD协议、支持自定义词库、PHP5.4 ] SCWS-1.2.0 发布,BSD协议、支持自定义词库、PHP5.4 2010年,scws 加上了翘首以盼的删减词库功能,该功能通过变通的办法解决,并非直接修改核心词库。下面详细介绍一下 scws-1.1.x 的更新日志及用法举

  • 最近使用了SCWS进行中文分词。有个问题就是添加自定义词典,总结一下吧。 词典格式的话 # WORD    TF    IDF    ATTR 学五    14.01    5.92    n 自己写的,把要查的词放到txt中,然后批量查询~require_once __DIR__.'/func/my_curl_function.php'; require_once __DIR__.'/func/

  • 1.首先编译安装apache,这里是下载的最新版apache 2.2.22版本 [root@b2b soft]#tar zxvf httpd-2.2.22.tar.gz [root@b2b soft]#cd http-2.2.17 [root@b2b http-2.2.22]#./configure --prefix=/home/apache2.2.22 --enable-so --enable-

  • 安装之前先确认您是否拥有主机的安装权限,否则无法进行安装,安装步骤如下! 1. 根据您当前用的 PHP 版本,下载相应已编译好的 php_scws.dll 扩展库。 目前支持以下版本 [PHP-4.4.x (44KB/VC6/ZTS)]  [PHP-5.2.x (44KB/VC6/ZTS)]  [PHP-5.3.x (40KB/VC9/ZTS)] [PHP-5.4.x (40KB/VC9/ZTS)

  • 进入源码目录的 phpext/ 目录 1 2 3 4 5 6 # cd /scws-1.2.3/phpext # /usr/local/php/bin/phpize #用phpize生成configure配置文件 # ./configure --with-php-config=/usr/local/php5/bin/php-config --with-scws=/usr/local/scwsphp

  • 参考文档:http://www.xunsearch.com/scws/docs.php#phpscws 基本应用 //实例化分词插件核心类 $so = scws_new(); //设置分词时所用编码 $so->set_charset('utf8'); //设置分词所用词典(此处使用utf8的词典) $so->set_dict('/usr/local/scws12/etc/dict.utf8.xdb

 相关资料
  • HTTP的特性 HTTP构建于TCP/IP协议之上,默认端口号是80 HTTP是无连接无状态的 HTTP报文 请求报文 HTTP 协议是以 ASCII 码传输,建立在 TCP/IP 协议之上的应用层规范。规范把 HTTP 请求分为三个部分:状态行、请求头、消息主体。类似于下面这样: <method> <request-URL> <version> <headers> <entity-body>

  • 一面中,如果有笔试,考HTTP协议的可能性较大。 前言 一面要讲的内容: HTTP协议的主要特点 HTTP报文的组成部分 HTTP方法 get 和 post的区别 HTTP状态码 什么是持久连接 什么是管线化 二面要讲的内容; 缓存 CSRF攻击 HTTP协议的主要特点 简单快速 灵活 无连接 无状态 通常我们要答出以上四个内容。如果实在记不住,一定要记得后面的两个:无连接、无状态。 我们分别来解

  • 提示 视频 PPT 下载 背景介绍 HTTP 协议是互联网上应用最为广泛的一种网络协议,越来越多的应用程序需要直接通过 HTTP 协议来访问网络资源。webclient 是 RT-Thread 上实现的一个 HTTP 客户端,用来提供高效且功能丰富的 HTTP 客户端编程工具包。 这个教程展示了如何利用 HTTP 协议获取天气,我们是使用 webclient 这个工具包实现的。 准备工作 开启 W

  • 本文向大家介绍你知道TCP协议、IP协议、HTTP协议分别在哪一层吗?相关面试题,主要包含被问及你知道TCP协议、IP协议、HTTP协议分别在哪一层吗?时的应答技巧和注意事项,需要的朋友参考一下 考察点:网络七层模型 运输层,网络层,应用层。 七层结构:物理层、数据链路层、网络层、传输层、会话层、表示层、应用层 tcp属于传输层;http属于应用层。

  • 本文向大家介绍javaweb中Http协议详解,包括了javaweb中Http协议详解的使用技巧和注意事项,需要的朋友参考一下 一、什么是HTTP协议   HTTP是hypertext transfer protocol(超文本传输协议)的简写,它是TCP/IP协议的一个应用层协议,用于定义WEB浏览器与WEB服务器之间交换数据的过程。客户端连上web服务器后,若想获得web服务器中的某个web资

  • 主要内容:1. HTTP协议,2. 基本功能,3. 架构,4. Http协议详细信息理解协议对于掌握安全测试非常重要。当我们拦截网络服务器和客户端之间的数据包数据时,您将能够理解协议的重要性。 1. HTTP协议 超文本传输协议(HTTP)是用于分布式协作超媒体信息系统的应用程序级协议。它是自1990年以来万维网数据通信的基础。HTTP是一种通用的无状态协议,可以用于其他目的,也可以使用其请求方法,错误代码和标头的扩展。 基本上,HTTP是基于TCP/IP的通信协议,用于通过We

  • HTTP 协议教程

  • servlet 的请求参数以字符串的形式作为请求的一部分从客户端发送到 servlet 容器。当请求是一个 HttpServletRequest 对象,且符合“参数可用时”描述的条件时,容器从 URI 查询字符串和 POST 数据中填充参数。参数以一系列的名-值对(name-value)的形式保存。任何给定的参数的名称可存在多个参数值。ServletRequest 接口的下列方法可访问这些参数: