zhparser是一个KingbaseES的扩展,主要用于全文搜索的中文分词。zhparser中文分词插件支持utf8和gbk字符集。
插件名为 zhparser
插件版本 V1.0
CREATE EXTENSION zhparser;
zhparser.dict_in_memory
将词典全部加载到内存中,bool类型,默认值:false
zhparser.punctuation_ignore
忽略所有的标点等特殊符号,bool类型,默认值:false
zhparser.seg_with_duality
闲散文字自动以二元分词法聚合,bool类型,默认值:false
zhparser.multi_short
短词复合,bool类型,默认值:false
zhparser.multi_duality
散字二元复合,bool类型,默认值:false
zhparser.multi_zmain
重要单字复合,bool类型,默认值:false
zhparser.multi_zall
全部单字复合,bool类型,默认值:false
zhparser.extra_dicts
用户自定义词典文件列表,自定义词典文件必须放在share/tsearch_data目录中,示例:zhparser.extra_dicts ='dict.txt,mydict.xdb',string类型,默认值:无
CREATE EXTENSION zhparser; CREATE TEXT SEARCH CONFIGURATION testzhcfg (PARSER = zhparser); ALTER TEXT SEARCH CONFIGURATION testzhcfg ADD MAPPING FOR n,v,a,i,e,l WITH simple; SELECT * FROM ts_parse('zhparser', 'KingbaseES中文分词插件测试'); tokid | token -------+------------ 101 | KingbaseES 110 | 中文 118 | 分词 110 | 插件 118 | 测试 (5 rows) SELECT to_tsvector('testzhcfg','KingbaseES中文分词插件测试'); to_tsvector ---------------------------------------------------- 'kingbasees':1 '中文':2 '分词':3 '插件':4 '测试':5 (1 row) SELECT to_tsquery('testzhcfg', '分词'); to_tsquery ------------ '分词' (1 row)
drop extension zhparser;
zhparser扩展插件通常随着KingbaseES安装包一并升级。通常情况下用户无须单独升级些插件。