当前位置: 首页 > 工具软件 > Tag Suggest > 使用案例 >

如何让jieba分词不分开某些词(suggest_freq方法的使用)

储思聪
2023-12-01

问题来源:

本人在进行jpython的jieba分词时,发现在对不高兴,不开心等词汇进行分词时,将其分开下图

Prefix dict has been built succesfully.
[精确模式]:  我 不 喜欢 也 不 高兴
[Finished in 1.7s]

 

期望形式:

但是我们希望jieba应该分成这种形式,不和高兴是连在一起的来表示消极的程度副词

Prefix dict has been built succesfully.
[精确模式]:  我 不喜欢 也 不高兴
[Finished in 1.6s]

 

解决办法: 

jieba有三种方法解决就是自定义字典添加新词汇

#方法1:添加词典文件,文件需要有特定格式,并且为UTF-8编码。
jieba.load_userdict(file_name)

#文件格式如下:单词  词频   词性

创新办 3 i
云计算 5
凱特琳 nz
台中

#方法2:动态修改词频
jieba.add_word(word, freq=None, tag=None)
jieba.del_word(word, freq=None, tag=None)


#方法3:动态修改词频
#调节单个词语的词频,使其能(不能)被分出来。
jieba.suggest_freq(segment, tune=True)

 

 类似资料: