10.1.中文分词核心配置

优质
小牛编辑
134浏览
2023-12-01

关于中文分词的详细配置实例和分词词典的自定义设置,可以访问Coreseek网站中文分词核心配置查看。

核心配置:
charset_dictpath		= /usr/local/mmseg3/etc/
charset_type		     = zh_cn.utf-8
#charset_table         = .................... #需将原有的该配置注释掉
ngram_len            = 0

10.1.1.charset_dictpath

设置中文分词词典所在的目录;

示例:

#Linux
charset_dictpath		= /usr/local/mmseg3/etc/
#Windows
charset_dictpath		= C:\usr\local\coreseek\etc

10.1.2.charset_type

设置文档的字符集,可选的值为“zh_cn.utf-8”、“zh_cn.gbk”和“zh_cn.big5”。“zh_cn.gbk”和“zh_cn.big5”需要iconv支持。

示例:

charset_type		=  zh_cn.utf-8