首页 > 文章 > java教程

Resilience4j 超时重试熔断实战：别把慢接口重试成雪崩

来源：17golang 原创

时间：2026-06-03 03:29:50 318浏览收藏

有次支付网关接口抖动，团队第一反应是“加 Retry”。结果重试一开，平均耗时没降，p99 反而飙得更高，连接池也开始排队。问题不是 Resilience4j 不好用，而是 Timeout、Retry、CircuitBreaker、Bulkhead 的边界没算清楚。

Resilience4j 官方支持在 Spring Boot 里配置 CircuitBreaker、Retry、RateLimiter、Bulkhead、TimeLimiter 等实例。资料可以帮我们核对能力，但线上真正难的是：什么错误该重试，超时预算怎么算，熔断统计看到的是哪一层失败，fallback 会不会把真实问题吞掉。

Resilience4j 生产落地思维导图 — 思维导图：先算边界，再叠策略，别把注解数量当成稳定性。

先问：这个调用能不能重试

查询类接口、幂等写接口、明确支持 requestId 去重的下游，才适合重试。扣款、发券、创建订单这类操作，如果没有幂等键，重试就是风险。很多事故不是没有重试，而是把不该重试的失败重试了。

我会把重试限制在连接瞬断、少量 5xx、短暂网络抖动这类瞬时失败上。下游已经过载、响应已经超过业务预算、或者返回明确业务错误时，不应该继续重试。

超时预算要早于重试次数

如果用户接口 SLA 是 1 秒，下游一次调用 800ms，还配置 3 次重试，那光等待就可能超过 2 秒。正确顺序是先算总预算，再拆单次超时、等待间隔和最大尝试次数。

resilience4j:
  timelimiter:
    instances:
      payClient:
        timeout-duration: 700ms
  retry:
    instances:
      payClientRetry:
        max-attempts: 2
        wait-duration: 100ms