10.2.MMSEG分词配置选项

优质
小牛编辑
131浏览
2023-12-01

mmseg分词相关的配置选项,需要保存到文件mmseg.ini,并将该配置文件放置到charset_dictpath所设置的目录中。

基本配置:
[mmseg] 
merge_number_and_ascii=0; 	;合并英文和数字 abc123/x
number_and_ascii_joint=-; 	;定义可以连接英文和数字的字符
compress_space=1; 		;暂不支持
seperate_number_ascii=0;	;就是将字母和数字打散
其中,分号表示注释

10.2.1.merge_number_and_ascii

是否合并英文和数字,该选项设置是否将连接在一起的英文字母和数字作为一个整体看待

例如:

merge_number_and_ascii=0; ;abc123将被切分为abc、123
merge_number_and_ascii=1; ;abc123将不被切分

10.2.2.number_and_ascii_joint

定义可以连接英文和数字的字符

例如:

number_and_ascii_joint=-_; ;abc_123、abc-123都将作为整体

10.2.3.compress_space

预设配置,暂不支持

10.2.4.seperate_number_ascii

是否将字母和数字打散

例如:

seperate_number_ascii=0; ;abc作为整体
seperate_number_ascii=1; ;abc被切分为a、b、c