10.1.中文分词核心配置
优质
小牛编辑
134浏览
2023-12-01
关于中文分词的详细配置实例和分词词典的自定义设置,可以访问Coreseek网站中文分词核心配置查看。
核心配置:charset_dictpath
= /usr/local/mmseg3/etc/charset_type
= zh_cn.utf-8 #charset_table
= .................... #需将原有的该配置注释掉ngram_len
= 0
10.1.1.charset_dictpath
设置中文分词词典所在的目录;
示例:
#Linux charset_dictpath = /usr/local/mmseg3/etc/ #Windows charset_dictpath = C:\usr\local\coreseek\etc
10.1.2.charset_type
设置文档的字符集,可选的值为“zh_cn.utf-8”、“zh_cn.gbk”和“zh_cn.big5”。“zh_cn.gbk”和“zh_cn.big5”需要iconv支持。
示例:
charset_type = zh_cn.utf-8