最近用到 pickle , 查询了网络博客的资料,整理了下 pickle 的作用,和使用场景,
一,pickle的说明介绍
一种数据的持久化保存方式
1.1 从序列化方向理解pickle
一般序列化流程:
对象1--序列化--> 字符串 -->反序列化--> 对象2(即原对象1)
从本质上来说,pickle 是python 自带的序列化方案, 对python 对象有很好支持,
从序列化角度,和JSON,XML, YAML 区别不大。
pickle与json区别:
Pickle 协议和 JSON (JavaScript Object Notation) 间有着本质的不同:
JSON 是一个文本序列化格式(它输出 unicode 文本,尽管在大多数时候它会接着以 utf-8
编码),而 pickle 是一个二进制序列化格式;
JSON 是我们可以直观阅读的,而 pickle 不是;
JSON是可互操作的,在Python系统之外广泛使用,而pickle则是Python专用的;
默认情况下,JSON 只能表示 Python 内置类型的子集,不能表示自定义的类;但 pickle 可以表示大量的 Python 数据类型(可以合理使用 Python 的对象内省功能自动地表示大多数类型,复杂情况可以通过实现 specific object APIs 来解决)。
不像pickle,对一个不信任的JSON进行反序列化的操作本身不会造成任意代码执行漏洞。
,参考:pickle --- Python 对象序列化 与JSON模块比较
1.2 python 中file
与pickle的区别
本质区别就是: 存取类型,读取速度(两方面)
a) pickle可以保存任何数据格式的数据,在经常存取的场景(保存和恢复状态)下读取更加高效
b) file则是只能读取和存储字符串格式的数据,适用于小场景,读取不那么频繁、数据格式不那么复杂
说下open函数作用:
open函数则是将当前读取的数据/状态存储到内存中,然后方便调用其他函数(file,pickle函数)写入或者读取
二,pickle的使用方法
import pandas as pd
import numpy as np
import pickle
data = pd.DataFrame(np.arange(16).reshape(4,4),index = list("ABCD"),columns=list('wxyz'))
print('raw_data:\n',data)
pkl_file = open('D:/save_file', 'wb')
pickle.dump(data,pkl_file,pickle.HIGHEST_PROTOCOL)
pkl_file.close()
pkl_file_rb = open(r'D:/save_file', 'rb')
new_data =pickle.load(pkl_file_rb)
print('new_data:\n',new_data)
三,pickle的使用场景
3.1 训练模型,数据处理等,中间数据计算过程保存
3.2 大规模数据,多次读写调度等,减少加载时间,
参考: