网站首页 > 技术文章 正文
1. 现象
将一个 Python 对象序列化为一个字节流,以便将它保存到一个文件、存储到数据库或者通过网络传输
序列化:serializing
反序列化:de-serializing
2. 原因分析
- 无
3. 问题解决
对于序列化最普遍的做法就是使用 pickle 模块
为了将一个对象保存到一个文件中,可以这样做
import pickle
data = 'Hello world'
f_obj = open('sorted_file_7', 'wb')
pickle.dump(data, f_obj)
f_obj.close()
为了将一个对象转储为一个字符串,可以使用 pickle.dumps()
pickle.dumps(data)
为了从字节流中恢复一个对象,使用 picle.load 或 pickle.loads 函数
f_obj = open('sorted_file_7', 'rb')
data = pickle.load(f_obj)
# 'Hello world'
print(data)
对于大多数应用程序来讲, dump 和 load 函数的使用就是有效使用 pickle 模块所需的全部了。
pickle 可适用于绝大部分 Python 数据类型和用户自定义类的对象实例。
如果碰到某个库可以让你在数据库中保存/恢复 Python 对象或者是通过网络传输对象的话,那么很有可能这个库的底层就使用了 pickle 模块
pickle 是一种 Python 特有的自描述的数据编码。通过自描述,被序列化后的数据包含每个对象开始和结束以及它的类型信息。
因此,无需担心对象记录的定义,它总是能工作。举个例子,如果要处理多个对象,你可以这样做
import pickle
data = 'Hello world'
f_obj = open('sorted_file_7', 'wb')
pickle.dump(data, f_obj)
pickle.dump([1, 2, 3, 4], f_obj)
pickle.dump(True, f_obj)
pickle.dump({'key1': 'value1', 'key2': 'value2'}, f_obj)
f_obj.close()
f_obj = open('sorted_file_7', 'rb')
data_01 = pickle.load(f_obj) # 'Hello world'
data_02 = pickle.load(f_obj) # <class 'list'>: [1, 2, 3, 4]
data_03 = pickle.load(f_obj) # True
data_04 = pickle.load(f_obj) # <class 'dict'>: {'key1': 'value1', 'key2': 'value2'}
如果超出load范围,则报错:
data_05 = pickle.load(f_obj)
pickle 还能序列化函数,类,还有接口,但是结果仅仅将它们的名称编码成对应的代码对象
import pickle
from tempfile import TemporaryDirectory
# b'\x80\x03ctempfile\nTemporaryDirectory\nq\x00.'
data = pickle.dumps(TemporaryDirectory)
data_01 = pickle.dumps(TemporaryDirectory())
# <class 'tempfile.TemporaryDirectory'>
print(pickle.loads(data_01))
# <TemporaryDirectory 'C:\\Users\\ADMINI~1\\AppData\\Local\\Temp\\tmpp9_3l22u'>
print(pickle.loads(data_01))
当数据反序列化回来的时候,会先假定所有的源数据是可用的。模块、类和函数会自动按需导入进来。
对于 Python 数据被不同机器上的解析器所共享的应用程序而言,数据的保存可能会有问题,因为所有的机器都必须访问同一个源代码。
千万不要对不信任的数据使用 pickle.load
pickle 在加载时有一个副作用就是它会自动加载相应模块并构造实例对象
某个坏人如果知道 pickle 的工作原理,他就可以创建一个恶意的数据导致 Python 执行随意指定的系统命令
因此,一定要保证 pickle 只在相互之间可以认证对方的解析器的内部使用
有些类型的对象是不能被序列化的。这些通常是那些依赖外部系统状态的对象,比如打开的文件,网络连接,线程,进程,栈帧等等。
用户自定义类可以通过提供 getstate 和 setstate 方法来绕过这些限制。
如果定义了这两个方法,pickle.dump 就会调用 getstate 获取序列化的对象。类似的, setstate 在反序列化时被调用
为了演示这个工作原理,下面是一个在内部定义了一个文件对象但仍然可以序列化和反序列化的类
import pickle
class TextReader(object):
def __init__(self, file_name):
self.file_name = file_name
self.f_obj = open(file_name, encoding='utf-8')
self.line_num = 0
def readline(self):
self.line_num += 1
line = self.f_obj.readline()
if not line:
return None
if line.endswith('\n'):
line = line[:-1]
return '{}: {}'.format(self.line_num, line)
def __getstate__(self):
state = self.__dict__.copy()
del state['f_obj']
return state
def __setstate__(self, state):
self.__dict__.update(state)
f_obj = open(self.file_name, encoding='utf-8')
for _ in range(self.line_num):
f_obj.readline()
self.f_obj = f_obj
reader = TextReader('sorted_file_2')
# '1: 们我都是一个人'
line = reader.readline()
new_reader_pickled = pickle.dumps(reader)
new_reader = pickle.loads(new_reader_pickled)
# '2: 第二行'
line_2 = new_reader.readline()
pickle 对于大型的数据结构比如使用 array 或 numpy 模块创建的二进制数组效率并不是一个高效的编码方式
如果你需要移动大量的数组数据,你最好是先在一个文件中将其保存为数组数据块或使用更高级的标准编码方式如 HDF5 (需要第三方库的支持)
由于 pickle 是 Python 特有的并且附着在源码上,所有如果需要长期存储数据的时候不应该选用它。例如,源码变动了,所有的存储数据可能会被破坏并且变
得不可读取。坦白来讲,对于在数据库和存档文件中存储数据时,最好使用更加标准的数据编码格式如 XML, CSV 或 JSON。这些编码格式更标准,可以被不同的语言支持,并且也能很好的适应源码变更
4. 错误经历
- 无
- 上一篇: 一篇文章读懂系列-2.二叉树及常见面试题
- 下一篇: Axure高保真教程:自动识别文件类型的上传列表
猜你喜欢
- 2024-09-09 一篇文章读懂系列-2.二叉树及常见面试题
- 2024-09-09 Meta 如何将缓存一致性提高到 99.99999999
- 2024-09-09 自学Python笔记2(python0基础自学书)
- 2024-09-09 找到两个链表的第一个公共节点(找出两个链表的第一个公共节点)
- 2024-09-09 详解SkipList跳跃链表(跳表遍历)
- 2024-09-09 Python画豪华版圣诞树,带漂亮彩灯与文字背景
- 2024-09-09 零基础Python完全自学教程23:函数的返回值、作用域和匿名函数
- 2024-09-09 redis的内存满了之后,redis如何回收内存
- 2024-09-09 「python小游戏」据说这是一款还原度超高的小游戏,你感受下....
- 2024-09-09 高阶Python|返回类型提示技巧 (1)
- 02-21走进git时代, 你该怎么玩?_gits
- 02-21GitHub是什么?它可不仅仅是云中的Git版本控制器
- 02-21Git常用操作总结_git基本用法
- 02-21为什么互联网巨头使用Git而放弃SVN?(含核心命令与原理)
- 02-21Git 高级用法,喜欢就拿去用_git基本用法
- 02-21Git常用命令和Git团队使用规范指南
- 02-21总结几个常用的Git命令的使用方法
- 02-21Git工作原理和常用指令_git原理详解
- 最近发表
- 标签列表
-
- cmd/c (57)
- c++中::是什么意思 (57)
- sqlset (59)
- ps可以打开pdf格式吗 (58)
- phprequire_once (61)
- localstorage.removeitem (74)
- routermode (59)
- vector线程安全吗 (70)
- & (66)
- java (73)
- org.redisson (64)
- log.warn (60)
- cannotinstantiatethetype (62)
- js数组插入 (83)
- resttemplateokhttp (59)
- gormwherein (64)
- linux删除一个文件夹 (65)
- mac安装java (72)
- reader.onload (61)
- outofmemoryerror是什么意思 (64)
- flask文件上传 (63)
- eacces (67)
- 查看mysql是否启动 (70)
- java是值传递还是引用传递 (58)
- 无效的列索引 (74)