网站首页 > 技术文章正文

序列化 Python 对象（序列化对象需要实现的接口）

nanyue 2024-09-09 04:53:48 技术文章 10 ℃

1. 现象

将一个 Python 对象序列化为一个字节流，以便将它保存到一个文件、存储到数据库或者通过网络传输

序列化：serializing

反序列化：de-serializing

2. 原因分析

3. 问题解决

对于序列化最普遍的做法就是使用 pickle 模块

为了将一个对象保存到一个文件中，可以这样做

import pickle
data = 'Hello world'
f_obj = open('sorted_file_7', 'wb')
pickle.dump(data, f_obj)
f_obj.close()

为了将一个对象转储为一个字符串，可以使用 pickle.dumps()

pickle.dumps(data)

为了从字节流中恢复一个对象，使用 picle.load 或 pickle.loads 函数

f_obj = open('sorted_file_7', 'rb')
data = pickle.load(f_obj)
# 'Hello world'
print(data)

对于大多数应用程序来讲， dump 和 load 函数的使用就是有效使用 pickle 模块所需的全部了。

pickle 可适用于绝大部分 Python 数据类型和用户自定义类的对象实例。

如果碰到某个库可以让你在数据库中保存/恢复 Python 对象或者是通过网络传输对象的话，那么很有可能这个库的底层就使用了 pickle 模块

pickle 是一种 Python 特有的自描述的数据编码。通过自描述，被序列化后的数据包含每个对象开始和结束以及它的类型信息。

因此，无需担心对象记录的定义，它总是能工作。举个例子，如果要处理多个对象，你可以这样做

import pickle
data = 'Hello world'
f_obj = open('sorted_file_7', 'wb')
pickle.dump(data, f_obj)
pickle.dump([1, 2, 3, 4], f_obj)
pickle.dump(True, f_obj)
pickle.dump({'key1': 'value1', 'key2': 'value2'}, f_obj)
f_obj.close()

f_obj = open('sorted_file_7', 'rb')
data_01 = pickle.load(f_obj) # 'Hello world'
data_02 = pickle.load(f_obj) # <class 'list'>: [1, 2, 3, 4]
data_03 = pickle.load(f_obj) # True
data_04 = pickle.load(f_obj) # <class 'dict'>: {'key1': 'value1', 'key2': 'value2'}

如果超出load范围，则报错：

data_05 = pickle.load(f_obj)

pickle 还能序列化函数，类，还有接口，但是结果仅仅将它们的名称编码成对应的代码对象

import pickle
from tempfile import TemporaryDirectory

# b'\x80\x03ctempfile\nTemporaryDirectory\nq\x00.'
data = pickle.dumps(TemporaryDirectory)
data_01 = pickle.dumps(TemporaryDirectory())

# <class 'tempfile.TemporaryDirectory'>
print(pickle.loads(data_01))

# <TemporaryDirectory 'C:\\Users\\ADMINI~1\\AppData\\Local\\Temp\\tmpp9_3l22u'>
print(pickle.loads(data_01))

当数据反序列化回来的时候，会先假定所有的源数据是可用的。模块、类和函数会自动按需导入进来。

对于 Python 数据被不同机器上的解析器所共享的应用程序而言，数据的保存可能会有问题，因为所有的机器都必须访问同一个源代码。

千万不要对不信任的数据使用 pickle.load
pickle 在加载时有一个副作用就是它会自动加载相应模块并构造实例对象
某个坏人如果知道 pickle 的工作原理，他就可以创建一个恶意的数据导致 Python 执行随意指定的系统命令
因此，一定要保证 pickle 只在相互之间可以认证对方的解析器的内部使用

有些类型的对象是不能被序列化的。这些通常是那些依赖外部系统状态的对象，比如打开的文件，网络连接，线程，进程，栈帧等等。

用户自定义类可以通过提供 getstate 和 setstate 方法来绕过这些限制。

如果定义了这两个方法，pickle.dump 就会调用 getstate 获取序列化的对象。类似的， setstate 在反序列化时被调用

为了演示这个工作原理，下面是一个在内部定义了一个文件对象但仍然可以序列化和反序列化的类

import pickle


class TextReader(object):
    def __init__(self, file_name):
        self.file_name = file_name
        self.f_obj = open(file_name, encoding='utf-8')
        self.line_num = 0

    def readline(self):
        self.line_num += 1
        line = self.f_obj.readline()
        if not line:
            return None
        if line.endswith('\n'):
            line = line[:-1]
        return '{}: {}'.format(self.line_num, line)

    def __getstate__(self):
        state = self.__dict__.copy()
        del state['f_obj']
        return state

    def __setstate__(self, state):
        self.__dict__.update(state)
        f_obj = open(self.file_name, encoding='utf-8')
        for _ in range(self.line_num):
            f_obj.readline()
        self.f_obj = f_obj


reader = TextReader('sorted_file_2')
# '1: 们我都是一个人'
line = reader.readline()

new_reader_pickled = pickle.dumps(reader)
new_reader = pickle.loads(new_reader_pickled)

# '2: 第二行'
line_2 = new_reader.readline()

pickle 对于大型的数据结构比如使用 array 或 numpy 模块创建的二进制数组效率并不是一个高效的编码方式

如果你需要移动大量的数组数据，你最好是先在一个文件中将其保存为数组数据块或使用更高级的标准编码方式如 HDF5 (需要第三方库的支持)

由于 pickle 是 Python 特有的并且附着在源码上，所有如果需要长期存储数据的时候不应该选用它。例如，源码变动了，所有的存储数据可能会被破坏并且变
得不可读取。坦白来讲，对于在数据库和存档文件中存储数据时，最好使用更加标准的数据编码格式如 XML， CSV 或 JSON。这些编码格式更标准，可以被不同的语言支持，并且也能很好的适应源码变更

4. 错误经历

上一篇：一篇文章读懂系列-2.二叉树及常见面试题
下一篇： Axure高保真教程:自动识别文件类型的上传列表

网站首页 > 技术文章 正文