首页 > 文章 > python教程

如何优化Python JSON序列化效率

时间：2026-05-22 18:21:15 316浏览收藏

Python默认的`json.dumps`在处理自定义对象时性能低下，根源在于其通用型`default`回调需反复进行类型判断、全字段反射遍历、无法跳过私有属性且无任何缓存机制；真正高效的优化路径并非盲目重写`JSONEncoder`，而是根据实际使用的序列化库“对症下药”：对标准`json`模块，应继承`JSONEncoder`实现精准类型分支、直取`__dict__`、显式过滤字段并优先使用`isoformat()`等轻量操作；而若追求极致性能，则应切换至`orjson`等C加速库，并配合提前将对象转为字典——此举彻底规避Python层反射与编码器调用开销，实测提速数倍，是生产环境最务实、最有效的升级策略。

如何提高Python中json序列化自定义对象的效率_通过编写自定义JSONEncoder

为什么默认json.dumps处理自定义对象慢

因为 json.dumps 默认不识别任意类实例，遇到非内置类型（如 datetime、dataclass 或你写的 User 类）时，会触发异常或 fallback 到 default= 回调函数——而这个回调是通用、无缓存、每次都要做类型判断和字段遍历的。更关键的是，它无法跳过不可序列化的属性、不支持预编译路径、也不利用类结构的稳定性。

如何编写高效且安全的自定义JSONEncoder

核心不是“重写所有逻辑”，而是让编码器只做必要事：明确知道输入类型、跳过无关字段、避免重复反射、直接访问属性而非 getattr（除非必须）。

继承 json.JSONEncoder，重写 default 方法，但仅对已知类型分支处理，其他一律抛出 TypeError
对 dataclass 或带 __dict__ 的简单类，优先用 obj.__dict__.copy() 而非 vars(obj)（后者有额外查找开销）
显式过滤掉以 _ 开头的私有属性，或通过白名单控制字段：{k: v for k, v in obj.__dict__.items() if k in ('id', 'name', 'created_at')}
对 datetime 等高频类型，直接转为 ISO 字符串并返回，不走通用格式化逻辑

class OptimizedEncoder(json.JSONEncoder):
    def default(self, obj):
        if isinstance(obj, datetime):
            return obj.isoformat()
        elif hasattr(obj, '__dict__') and not callable(getattr(obj, '__dict__', None)):
            # 只取公有属性，排除方法、描述符等
            d = obj.__dict__.copy()
            return {k: v for k, v in d.items() if not k.startswith('_')}
        raise TypeError(f"Object of type {type(obj).__name__} is not JSON serializable")

比自定义Encoder更快的替代方案：注册类型处理器（orjson/ujson）

如果你用的是 orjson 或配置了 ujson 作为后端，自定义 JSONEncoder 完全无效——它们不走 Python 的 json 模块机制。这时必须用对应库的注册方式：

orjson：不支持运行时注册，只能靠其内置支持（datetime、dataclass、NamedTuple）或提前转换成 dict/list
ujson：不支持自定义 encoder，必须在调用前手动把对象转成 dict
jsonpickle：可用 jsonpickle.encode(obj, unpicklable=False) 关闭元数据，但仍是通用序列化，不如手写 dict 映射快

所以，**真正要提速，得先确认你用的是哪个库**——json 模块才认 JSONEncoder；其他高性能库要么不支持，要么要求你换思路。

容易被忽略的性能陷阱

很多人写了 JSONEncoder 就以为万事大吉，结果发现没提速甚至更慢。常见原因：

在 default 里调用 json.dumps 递归处理子结构（造成嵌套调用+重复解析）
用 getattr(obj, field, None) 遍历所有字段，而不是直接读 obj.__dict__（getattr 触发 descriptor 协议，开销大）
没禁用 indent 和 sort_keys：这两个选项会让序列化速度下降 3–10 倍，生产环境务必设为 False
把 datetime 转成字符串时用了 strftime 而非 isoformat()（前者慢 2–4 倍）

最省事又有效的提速动作，其实是：不用自定义 encoder，改用 orjson + 提前把对象转成字典，再批量 orjson.dumps() ——这绕过了所有 Python 层反射，也避开了 encoder 的调用栈开销。

今天带大家了解了的相关知识，希望对你有所帮助；关于文章的技术知识我们会一点点深入介绍，欢迎大家关注golang学习网公众号，一起学习编程~