首页 > 数据库 > MySQL

MySQL 8.4 InnoDB Purge Lag 排障：undo 暴涨时先抓长事务

来源：17golang 原创

时间：2026-06-03 15:47:26 326浏览收藏

有一次订单库磁盘告警，大家第一反应是“是不是 binlog 没清”“是不是大表写太多”。结果一看 InnoDB 状态，真正刺眼的是 History list length 已经涨到几百万，undo 表空间也在持续变大。最后追到根因，是一个报表连接开了事务后跑了三个多小时，一直没提交，purge 被它死死拖住。

这类问题很典型：写入还在继续，旧版本却不能回收，表面像磁盘、IO、慢 SQL，底层其实是 MVCC 旧版本堆积。MySQL 8.4 里相关配置包括 innodb_purge_threads、innodb_max_purge_lag 和 innodb_max_purge_lag_delay，但我的经验是，先找长事务，再谈参数。

MySQL InnoDB Purge Lag 思维导图 — 思维导图：purge lag 的重点是旧版本为什么不能被回收。

先解释一下 History list length

InnoDB 的 MVCC 会为事务保留旧版本。事务提交后，这些旧版本不是马上消失，而是由后台 purge 线程清理。如果有很老的 read view 还活着，InnoDB 就必须保留它可能读到的旧版本，history list 会越积越长。

所以 History list length 不是“越大就一定立刻出事故”的单点指标，但如果它持续上升，同时 undo 表空间增长、写入延迟抖动、检查点压力变大，就要认真排查了。

第一步：确认它是不是持续增长

我通常先连续采样 SHOW ENGINE INNODB STATUS\G，看 history list 是不是一直往上爬。单次尖峰不一定需要立刻动刀，持续增长才说明 purge 追不上或者被旧事务卡住。

SHOW ENGINE INNODB STATUS\G

-- 重点看 TRANSACTIONS 区域
-- History list length 2840000

如果增长很快，先别急着调大 purge 线程。旧版本被长事务 pin 住时，线程再多也回收不了。这时候最有效的是找到最老事务。

MySQL Purge Lag 排障流程 — 流程图：先确认趋势，再定位最老事务，最后观察 purge 追赶情况。

第二步：抓最老事务

information_schema.INNODB_TRX 是最直接的入口。按事务开始时间排序，先看最老的几个事务，再用线程 id 关联 SHOW FULL PROCESSLIST，通常就能看到是哪台机器、哪个账号、哪条 SQL 或哪个任务在拖着。

SELECT trx_id,
       trx_started,
       trx_state,
       trx_mysql_thread_id,
       trx_query
FROM information_schema.INNODB_TRX
ORDER BY trx_started
LIMIT 10;

SHOW FULL PROCESSLIST;

如果看到一个事务跑了几个小时，SQL 还是普通 SELECT，大概率是业务连接池里有人关掉了 autocommit 后没提交，或者报表/备份工具开了一致性快照后迟迟不结束。

MySQL 定位长事务 SQL 案例 — 案例图：从 InnoDB 状态到 INNODB_TRX，把长事务定位到具体连接。

第三步：处置前先确认业务风险

不要看到长事务就直接 KILL。先确认它是不是备份、数据迁移、账务批处理、报表导出这类有业务语义的任务。能让应用主动提交或停止最好，不能的话再评估 kill 连接的影响。

-- 确认连接来源和当前 SQL 后再执行
KILL 123456;

长事务解除后，history list 不会瞬间清零。要观察它的下降斜率、undo 表空间是否停止增长、业务延迟是否恢复。如果写入仍然很猛，purge 追赶需要时间。

参数怎么调才不乱

innodb_purge_threads 可以提高并行 purge 能力，但不是所有场景都靠它解决。写入压力大、旧版本能正常释放时，它有价值；长事务挡住旧版本时，先解决事务生命周期。

innodb_max_purge_lag 和 innodb_max_purge_lag_delay 更像保护阀：当 purge lag 超过阈值时，对 DML 做延迟，让后台清理有机会追上。这个参数要谨慎，因为它会直接影响写入接口延迟。

SHOW VARIABLES LIKE 'innodb_purge_threads';
SHOW VARIABLES LIKE 'innodb_max_purge_lag%';

我会加的上线保护

应用侧设置事务最长执行时间，报表和导出任务不能无限持有事务。
连接池归还连接前确认事务状态，避免把未提交事务放回池里。
监控 history list length 的趋势，而不是只看单点阈值。
把 INNODB_TRX 中超过阈值的事务打到告警里，包含账号、主机、线程 id。
大批量更新拆批提交，别让单个事务积累大量 undo。
备份、报表、迁移任务使用独立账号，方便快速识别和限流。

我的经验结论

Purge lag 很少是一个单纯参数问题。它通常是事务生命周期管理、报表查询、批处理和 InnoDB MVCC 交织出来的问题。最可靠的排查顺序是：确认 history list 趋势，找到最老事务，判断业务来源，安全处置，再观察 purge 追赶。

如果你只记一句话：undo 暴涨时，不要先怪磁盘，也不要先调线程，先抓住那个让旧版本不能被回收的长事务。

mysql innodb Purge Lag History List 长事务 Undo InnoDB 故障排查生产实践 MySQL教程事务隔离

声明：本文转载于：17golang 原创如有侵犯，请联系study_golang@163.com删除