10.2.MMSEG分词配置选项
优质
小牛编辑
131浏览
2023-12-01
mmseg分词相关的配置选项,需要保存到文件mmseg.ini
,并将该配置文件放置到charset_dictpath
所设置的目录中。
基本配置: [mmseg]merge_number_and_ascii
=0; ;合并英文和数字 abc123/xnumber_and_ascii_joint
=-; ;定义可以连接英文和数字的字符compress_space
=1; ;暂不支持seperate_number_ascii
=0; ;就是将字母和数字打散 其中,分号表示注释
10.2.1.merge_number_and_ascii
是否合并英文和数字,该选项设置是否将连接在一起的英文字母和数字作为一个整体看待
例如:
merge_number_and_ascii=0; ;abc123将被切分为abc、123 merge_number_and_ascii=1; ;abc123将不被切分
10.2.2.number_and_ascii_joint
定义可以连接英文和数字的字符
例如:
number_and_ascii_joint=-_; ;abc_123、abc-123都将作为整体
10.2.3.compress_space
预设配置,暂不支持
10.2.4.seperate_number_ascii
是否将字母和数字打散
例如:
seperate_number_ascii=0; ;abc作为整体 seperate_number_ascii=1; ;abc被切分为a、b、c