当前位置: 首页 > 工具软件 > SCWS > 使用案例 >

SCWS分词库自定义

拓拔泓
2023-12-01


最近因为要进行搜索功能的实现,而实现搜索给用户一个更好的体验就需要对输入的内容进行分词,所以静下心来,好好看看分词的知识
并记录下来,还是很有必要的。

今天主要做了写关于SCWS的分词的词库的一些了解学习。
首先就是需要知道SCWS这个分词的词库是什么格式的,才能进行自定义词库,并生成词库文件。
1.词库的格式
# WORD    TF    IDF    ATTR
关键词   10  10  词的属性

2.使用gen-scws-dict生成词库xdb
/usr/local/scws/bin/gen-scws-dict -c utf8 -i user.txt -o /usr/local/scws/etc/dict.user.xdb

此处的user.txt可以存贮的时候使用utf8编码。

 

导出


/usr/local/php5/bin/php dump_xdb_file.php /usr/local/scws/etc/dict.gpk.xdb  dict.txt


导入
/usr/local/php5/bin/php make_xdb_file.php /usr/local/scws/dict.utf8.xdb dict.txt

 类似资料: