登录
首页 >  数据库 >  MySQL

MySQL 8.4 复制延迟排障:别只盯 Seconds_Behind_Source

来源:17golang MySQL频道原创

时间:2026-06-04 14:11:41 119浏览 收藏

先说结论:复制延迟不是一个数字能解释完

线上一看到只读库落后,很多人第一反应是盯着 Seconds_Behind_Source。这个数字有价值,但它不是完整答案。MySQL 8.x 复制链路至少要拆成三段看:源库 binlog 产生和发送,副本 IO 线程接收 relay log,副本 SQL/applier 线程应用事务。

如果你只看一个延迟秒数,很容易误判:明明网络没问题,却把锅甩给机房;明明是大事务卡应用,却去调连接池;明明副本已经延迟,还继续把强一致读打到只读库。

MySQL 复制延迟排障思维导图
复制延迟要分层:接收、应用、业务读路由,任何一层出问题都会表现成“只读库落后”。

业务场景:只读库读到了 5 分钟前的数据

一个常见事故是:订单支付成功后,用户马上进入详情页,读请求被路由到副本,页面显示仍未支付。业务看到的是“数据不一致”,DBA 看到的是副本延迟 300 秒。

这时候不要先改代码,也不要先重启复制。先回答三个问题:

  • 副本有没有继续接收主库 binlog?
  • relay log 有没有堆积但应用不过来?
  • 业务有没有在延迟超过阈值时继续读这个副本?

第一步:SHOW REPLICA STATUS 只做入口

MySQL 8 推荐使用 source/replica 术语,先看状态入口:

SHOW REPLICA STATUS\G

我会重点看这些字段:Replica_IO_RunningReplica_SQL_RunningSeconds_Behind_SourceRelay_Log_FileRelay_Log_PosLast_IO_ErrorLast_SQL_Error。如果 IO 线程不是 Yes,先查网络、账号权限、源库 binlog 保留和通道配置;如果 SQL 线程不是 Yes,先看具体 SQL 错误,不要盲目跳过事务。

MySQL 复制延迟分层诊断流程
我的排查顺序是先确认业务影响,再把接收慢和应用慢拆开看。

第二步:用 Performance Schema 拆接收和应用

只看 SHOW REPLICA STATUS 有时不够细。可以查复制相关的 Performance Schema 表,把 connection 和 applier 分开:

SELECT CHANNEL_NAME, SERVICE_STATE, LAST_ERROR_NUMBER, LAST_ERROR_MESSAGE
FROM performance_schema.replication_connection_status;

SELECT CHANNEL_NAME, SERVICE_STATE, LAST_ERROR_NUMBER, LAST_ERROR_MESSAGE
FROM performance_schema.replication_applier_status;

SELECT CHANNEL_NAME, WORKER_ID, SERVICE_STATE, LAST_ERROR_MESSAGE
FROM performance_schema.replication_applier_status_by_worker;

如果 connection 状态异常,说明接收源库事件这段可能有问题;如果 connection 正常但 applier worker 落后,问题更可能在副本应用事务,比如大事务、DDL、锁等待、无主键更新、磁盘刷写压力。

MySQL 复制延迟排障 SQL 案例
状态入口、接收线程、应用线程一起看,才能知道延迟到底卡在哪一段。

常见原因一:大事务把副本应用线程堵住

最常见的延迟来源是源库一个大事务提交,比如一次更新几百万行,源库提交完成后,副本要完整重放。业务看到的是延迟突然上升,DBA 看到的是 relay log 堆积,SQL 线程一直忙。

-- 危险示例:一次性更新过大
UPDATE order_items
SET status = 2
WHERE created_at 

更稳的做法是拆批,控制每批行数和提交频率,让副本有机会持续追上:

UPDATE order_items
SET status = 2
WHERE created_at  ?
ORDER BY id
LIMIT 5000;

拆批不是为了让主库轻松一点而已,也是为了让复制链路更平滑。大事务一旦写进 binlog,副本没有魔法可以瞬间消化。

常见原因二:并行复制没发挥作用

MySQL 8.x 支持并行应用,但不是开了 worker 就一定能并行。如果源库事务都集中在同一组冲突资源上,或者大事务本身无法拆开,副本 worker 也只能排队。

排查时我会看 worker 状态,确认是所有 worker 都忙,还是只有一个 worker 卡住。如果只有单个 worker 长时间忙,通常要回到源库 SQL 形态:是不是单事务太大、是不是 DDL、是不是热点表更新。

常见原因三:只读流量把副本拖慢

副本不是免费的查询池。报表 SQL、导出任务、没有索引的大查询都可能和复制应用抢 CPU、IO、Buffer Pool。结果就是源库没问题,网络没问题,副本自己忙不过来。

这类场景我会把只读库分层:在线查询副本、报表副本、备份副本尽量隔离;强一致读在延迟超过阈值时回源库或走特殊路径。

上线检查:延迟阈值要进入业务路由

复制延迟不是 DBA 控制台里的数字,它应该进入业务读路由。比如延迟超过 5 秒,把涉及支付、库存、订单状态的读请求临时切回源库;延迟超过 60 秒,摘掉这个副本的普通读流量;延迟恢复后再渐进放回。

SHOW REPLICA STATUS\G
-- 应用侧采集 Seconds_Behind_Source
-- 超过阈值时从读池摘除该副本

同时,写入侧要避免大事务和长 DDL。上线批处理、历史归档、补偿脚本时,发布清单里必须写清楚每批行数、提交间隔、可暂停点和复制延迟观察方式。

个人经验:先止血,再追根因

如果复制延迟已经影响用户,我会先止血:把强一致读切回源库,暂停报表大查询,必要时限流批处理。等业务恢复,再慢慢追 relay log、worker 状态和源库大事务。

不要在业务正受影响时随便 RESET REPLICA、跳过事务或重建复制。除非你非常确认数据一致性后果,否则这些动作可能把“延迟问题”变成“数据缺口问题”。

总结

MySQL 8.x 复制延迟排障的关键是分层。Seconds_Behind_Source 只能告诉你有延迟,不能告诉你为什么延迟。先看 IO 接收,再看 SQL/applier 应用,再看副本上的只读负载和业务路由。治理上,拆批大事务、隔离报表流量、配置延迟阈值摘除副本,往往比盲目调参数更有效。

声明:本文转载于:17golang MySQL频道原创 如有侵犯,请联系study_golang@163.com删除
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>