问题来源:
本人在进行jpython的jieba分词时,发现在对不高兴,不开心等词汇进行分词时,将其分开下图
Prefix dict has been built succesfully.
[精确模式]: 我 不 喜欢 也 不 高兴
[Finished in 1.7s]
期望形式:
但是我们希望jieba应该分成这种形式,不和高兴是连在一起的来表示消极的程度副词
Prefix dict has been built succesfully.
[精确模式]: 我 不喜欢 也 不高兴
[Finished in 1.6s]
解决办法:
jieba有三种方法解决就是自定义字典添加新词汇
#方法1:添加词典文件,文件需要有特定格式,并且为UTF-8编码。
jieba.load_userdict(file_name)
#文件格式如下:单词 词频 词性
创新办 3 i
云计算 5
凱特琳 nz
台中
#方法2:动态修改词频
jieba.add_word(word, freq=None, tag=None)
jieba.del_word(word, freq=None, tag=None)
#方法3:动态修改词频
#调节单个词语的词频,使其能(不能)被分出来。
jieba.suggest_freq(segment, tune=True)