最近做了一个小商城,用到了Lucene+盘古,但是发现,盘古的默认分词词库不够全,有很多词都没有分到位,为了这个,研究了一上午,做记录如下
第一步:设置词库
自己可以把自己想要词写成一个txt保存起来,我因为做的是淘宝商品类的检索,所以我直接在搜狗词库里面检索到了阿里巴巴的所有词库,直接通过工具转换成了txt格式的
第二步:通过盘古DictManage.exe设置要添加的词
第三步:添加PanGu.dll的引用
第四步:把PanGu.xml放到bin目录里面
第五步:把Dictionaries文件夹下所有的内容放到网站根目录里面
通过以上五步,就可以使用新增的词进行分词了,如果以后需要继续添加词,只需要按前2步添加完成之后,把Dictionaries/Dict.dct替换进去即可
第一步所需工具链接:http://download.csdn.net/detail/lzlawy1314/9837402
2-5步所需工具链接:http://download.csdn.net/detail/lzlawy1314/9837413