1、jieba库基本介绍
(1)、jieba库概述
jieba是优秀的中文分词第三方库
(2)、jieba分词的原理
Jieba分词依靠中文词库
- 利用一个中文词库,确定汉字之间的关联概率
- 汉字间概率大的组成词组,形成分词结果
- 除了分词,用户还可以添加自定义的词组
jieba库使用说明
(1)、jieba分词的三种模式
精确模式、全模式、搜索引擎模式
(2)、jieba库常用函数
2.jieba应用实例
3.利用jieba库统计三国演义中任务的出场次数
import jieba txt = open("D:\\三国演义.txt", "r", encoding='utf-8').read() words = jieba.lcut(txt) # 使用精确模式对文本进行分词 counts = {} # 通过键值对的形式存储词语及其出现的次数 for word in words: if len(word) == 1: # 单个词语不计算在内 continue else: counts[word] = counts.get(word, 0) + 1 # 遍历所有词语,每出现一次其对应的值加 1 items = list(counts.items())#将键值对转换成列表 items.sort(key=lambda x: x[1], reverse=True) # 根据词语出现的次数进行从大到小排序 for i in range(15): word, count = items[i] print("{0:<5}{1:>5}".format(word, count))
统计了次数对多前十五个名词,曹操不愧是一代枭雄,第一名当之无愧,但是我们会发现得到的数据还是需要进一步处理,比如一些无用的词语,一些重复意思的词语。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持小牛知识库。
本文向大家介绍Java List 用法详解及实例分析,包括了Java List 用法详解及实例分析的使用技巧和注意事项,需要的朋友参考一下 Java List 用法详解及实例分析 Java中可变数组的原理就是不断的创建新的数组,将原数组加到新的数组中,下文对Java List用法做了详解。 List:元素是有序的(怎么存的就怎么取出来,顺序不会乱),元素可以重复(角标1上有个3,角标2上也可以有个
本文向大家介绍详解java枚举用法及实例,包括了详解java枚举用法及实例的使用技巧和注意事项,需要的朋友参考一下 一、枚举类型作为常量 其实在更近一步的话我们可以输出每个枚举实例的具体位置 二、与swith结合使用 从上面的例子可以看出枚举的多态性,其实可以讲Color作为枚举的超类,其中的实例在运行时表现出多态。(如上面的输出结果为红色,下面的例子来验证这一特性。) 三、多态性(在Color中
本文向大家介绍InputStreamReader和BufferedReader用法及实例讲解,包括了InputStreamReader和BufferedReader用法及实例讲解的使用技巧和注意事项,需要的朋友参考一下 一、BufferedReader类 . 所属类库: java.lang.Object java.io.Reader
本文向大家介绍jQuery.datatables.js插件用法及api实例详解,包括了jQuery.datatables.js插件用法及api实例详解的使用技巧和注意事项,需要的朋友参考一下 1、DataTables的默认配置 示例:http://www.guoxk.com/html/DataTables/Zero-configuration.html 2、DataTables的一些基础属性配置
本文向大家介绍AngularJS extend用法详解及实例代码,包括了AngularJS extend用法详解及实例代码的使用技巧和注意事项,需要的朋友参考一下 AngularJS extend用法 angular.extend:依次将第二个参数及后续的参数的第一层属性(不管是简单属性还是对象)拷贝赋给第一个参数的第一层属性,即如果是对象,则是引用的是同一个对象,并返回第一个参数对象。
本文向大家介绍iOS-GCD使用详解及实例解析,包括了iOS-GCD使用详解及实例解析的使用技巧和注意事项,需要的朋友参考一下 iOS-GCD使用详解 前言 对初学者来说,GCD似乎是一道迈不过去的坎,很多人在同步、异步、串行、并行和死锁这几个名词的漩涡中渐渐放弃治疗。本文将使用图文表并茂的方式给大家形象地解释其中的原理和规律。 线程、任务和队列的概念 异步、同步 & 并行、串行的特点 一条重要的