我这里要讲的是一个网上免费的分词系统,个人认为这个系统还是不错的,在对一些文章的关键词上抓取还是不错的,虽然词库量不是很大,但是基本已经满足大多数网站的需求。
由于现在很多人使用集成环境,或者对于新手来说使用集成环境更容易上手,在网上我发现并没有针对PHPNOW集成系统的分词的配置的介绍,现在拿出来和大家分享下,虽然很简单,但是我相信对很多人还是有用的。
1. 根据您当前用的 PHP 版本,下载相应已编译好的 php_scws.dll 扩展库。
目前支持 PHP-4.4.x 和 PHP-5.2.x 系列,下载地址分别为:
php-4.4.x: http://www.ftphp.com/scws/down/scws_1.1.1_win32_php-4.4.x.zip
php-5.2.x: http://www.ftphp.com/scws/down/scws_1.1.1_win32_php-5.2.x.zip
2. 将下载后的 zip 文件解压缩得到里面的 php_scws.dll ,将该文件放到 phpnow安装目录的
PHPnow-1.5.3/php-5.2.9-2-Win32/etc 下
3. 建立一个本地目录放规则集文件和词典文件,建议使用:D:/PHPnow-1.5.3/php-5.2.9-2-Win32/scws/etc 下
4. 从 scws 主页上下载词典文件,解压后将 *.xdb 放到上述目录中
词典系列:http://www.ftphp.com/scws/down/scws-dict-chs-gbk.tar.bz2
http://www.ftphp.com/scws/down/scws-dict-chs-utf8.tar.bz2
http://www.ftphp.com/scws/down/scws-dict-cht-utf8.tar.bz2
5.修改php-apache2handler.ini ,位于PHPnow-1.5.3/php-5.2.9-2-Win32/php-apache2handler.ini
在 php.ini 的末尾加入以下几行:
[scws]
;
; 注意请检查 php.ini 中的 extension_dir 的设定值是否正确, 否则请将 extension_dir 设为空,
; 再把 php_scws.dll 指定为绝对路径。
;
extension = php_scws.dll
scws.default.charset = gbk
scws.default.fpath = "D:/PHPnow-1.5.3/php-5.2.9-2-Win32/scws/etc"
6.重启服务器即可。
感谢 http://www.ftphp.com/scws/index.php 开源免费的简易中文分词系统