HTTPCWS 是一款基于HTTP协议的开源中文分词系统,目前仅支持Linux系统。HTTPCWS 使用“ICTCLAS 3.0 2009共享版中文分词算法”的API进行分词处理,得出分词结果。
1 安装.
wget http://httpcws.googlecode.com/files/httpcws-1.0.0-x86_64-bin.tar.gz
tar zxvf httpcws-1.0.0-x86_64-bin.tar.gz
rm -f httpcws-1.0.0-x86_64-bin.tar.gz
cd httpcws-1.0.0-x86_64-bin/
2 启动
下载解包后,会发现里面有一个可执行文件,也就是说不用编译,比较省事。
启动命令:
/usr/local/httpcws-1.0.0-x86_64-bin/httpcws -d -x /usr/local/httpcws-1.0.0-x86_64-bin/dict/
可以使用/usr/local/httpcws-1.0.0-x86_64-bin/httpcws -h 查看启动参数:
3 程序调用.
httpcws支持所有可以发出HTTP请求的语言,因为它是以HTTP协议调用的,在浏览器输入http://127.0.0.1:1985/?w=分词系统测试,便可以得到分词的结果了。所以只要可以发送HTTP请求的语言,都可以调用它。
4 分词速度
局域网内 HTTPCWS 接口中文分词平均处理速度(Wait时间):0.001秒。HTTPCWS 基于 libevent + epoll 网络IO模型开发,经测试,每秒可处理5000~20000次请求。
5、自定义词库
修改dict/httpcws_dict.txt文件,可以自由增加自己需要的词语。重启httpcws即可生效。