登录
首页 >  数据库 >  Redis

Redis持久化触发机制详解

时间:2026-05-06 17:28:38 265浏览 收藏

Redis的持久化并非依赖固定时间点的硬性触发,而是由每100毫秒执行一次的serverCron函数以“机会主义”方式动态决策:仅在无RDB/AOF子进程运行的安全窗口内,结合dirty计数器、lastsave时间戳、AOF当前大小与增长率等实时状态,判断是否启动RDB快照或AOF重写;配置变更(如save规则或AOF阈值)会立即更新参数但不重置计时/计数器,因此不会立即生效,需等待自然积累达标或手动触发;同时,fork失败时通过冷却机制避免日志刷屏,而AOF重写卡住也不会阻塞serverCron主线程——这种轻量、非确定、强依赖运行时状态的设计,让持久化行为既高效又隐晦,也给运维监控和故障排查带来了独特挑战。

Redis怎样理解持久化触发器底层的周期函数_探究serverCron中的持久化检查逻辑

serverCron 里什么时候决定该 RDB 或 AOF 重写?

Redis 不靠定时器硬触发持久化,而是靠 serverCron 每 100ms 扫描一次状态,再根据条件“顺手”发起 RDB save 或 AOF rewrite。关键不是“到了点就做”,而是“这次轮到我检查时,发现满足了就做”。

  • serverCron 中调用 updateCachedTime 后,紧接着执行 if (server.rdb_child_pid == -1 && server.aof_child_pid == -1) —— 只有没子进程在干活时,才考虑新启一个
  • RDB 触发看 server.saveparams 数组:比如配置了 save 300 10,表示“最近 300 秒内至少 10 次变更”,server.dirty 计数器和 server.lastsave 时间戳共同参与判断
  • AOF 重写触发看两个开关:server.aof_state == AOF_ONserver.aof_rewrite_scheduled == 0;真正启动前还会比对 server.aof_current_sizeserver.aof_rewrite_min_size(默认 64MB),以及增长比例 server.aof_base_size

为什么改了 save 配置但 RDB 就是不触发?

常见现象是改了 redis.conf 里的 save 行,reload 配置后,server.dirty 一直涨,却始终没看到 Background saving started 日志。根本原因在于:Redis 加载配置时只覆盖 server.saveparams,但不会重置 server.lastsave 或清空 server.dirty

  • 如果上次成功 save 是 299 秒前,你刚 reload 配置,此时 dirty=5,那即使配了 save 300 10,也不会触发——差 5 次变更
  • CONFIG SET save "300 10 60 1000" 会实时更新 server.saveparams,但同样不重置计时/计数,行为一致
  • 真正想立刻触发,得手动 SAVEBGSAVE;或者等下一个 cron 周期,靠自然积累达标

fork 失败时,serverCron 怎么避免反复重试?

当系统内存不足或 vm.overcommit_memory=0 时,fork() 调用失败,serverCron 不会立刻报错退出,而是设一个冷却标记,跳过后续几轮检查。

  • 失败后设置 server.rdb_save_time_last = time(NULL),并在下次进入时检查:if (time(NULL)-server.rdb_save_time_last 就直接 return,相当于“两秒内不再尝试”
  • 这个冷却仅作用于 RDB,AOF rewrite 有自己的类似逻辑(server.aof_rewrite_time_last
  • 注意:这个机制不解决根本问题,只是防刷屏日志;若持续 fork 失败,INFO persistencerdb_last_bgsave_status:err 会长期为 err

为什么 AOF rewrite 有时卡住,但 serverCron 还在跑?

serverCron 本身不阻塞,它只负责“发起”和“检查”,真正的 AOF rewrite 是子进程干的。你看到 Redis 主线程响应正常,不代表 rewrite 已完成;而 serverCron 每次进来只会看 server.aof_child_pid != -1 就跳过调度,不会管子进程卡在哪。

  • 子进程卡在写文件(比如磁盘满、IO 堵塞)、或正 dump key 空间(大 hash / zset 序列化慢),主线程完全感知不到细节
  • serverCron 中的 wait3(&statloc, WNOHANG, NULL) 只做非阻塞收割,不主动 kill;超时控制靠上层配置 auto-aof-rewrite-percentageauto-aof-rewrite-min-size 的下一次评估
  • 排查时优先看 INFO persistence 里的 aof_rewrite_in_progress:1aof_last_rewrite_time_sec:-1(负值说明还在跑)

真正难 debug 的地方在于:serverCron 的逻辑是“机会主义”的,它不保证任何事一定发生,只保证“在安全窗口里,按规则择机执行”。所有依赖它的行为——比如备份节奏、磁盘空间预估、故障恢复点——都得把这种不确定性算进去。

今天关于《Redis持久化触发机制详解》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!

资料下载
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>