首页 > 文章 > java教程

Spring Boot 指标告警实战：Actuator + Micrometer 让慢接口先暴露

来源：17golang Java频道原创

时间：2026-06-04 14:31:58 240浏览收藏

这篇写一个 Java 后端线上最常见的盲区：日志没有 ERROR，接口却已经慢到用户能感知。等客服反馈再查日志，往往已经晚了。Spring Boot Actuator + Micrometer 的价值，就是让延迟、错误率、吞吐、JVM 状态先说话。

本文适用于 Java 17/21、Spring Boot 3.x、Actuator、Micrometer、Prometheus/Grafana 场景。资料只用于核对事实：Spring Boot 会自动接入 Micrometer 并生成如 http.server.requests 的 HTTP 指标，Micrometer Timer 支持直方图和百分位。正文按生产落地写，不复述官方手册。

Micrometer 告警思维导图 — 脑图：指标体系要覆盖 HTTP、JVM、自定义业务指标和告警闭环。

业务场景：接口慢了，但日志一片正常

订单查询接口某天开始变慢，日志没有异常，数据库也没有明显报错。用户反馈“偶尔转圈”，研发看平均耗时还可以，直到 p99 拉出来才发现高峰时已经超过 1 秒。

这就是只看日志和平均值的问题。生产服务需要用指标观察分布：p95、p99、错误率、吞吐和下游耗时一起看，才能知道用户实际体验。

问题复现：平均值掩盖尖刺

假设 99 个请求 50ms，1 个请求 2s，平均值看起来仍然不吓人。但这个 2s 请求可能就是用户投诉的来源。Micrometer 的 Timer 适合记录短耗时事件，配合后端监控系统可以看百分位和直方图。

Spring Boot Micrometer 指标告警落地流程 — 流程图：从暴露端点，到控制标签，再到告警和 Runbook。

踩坑原因：指标有了，但不能行动

很多团队接了 Actuator，却只看 /actuator/health。真正有用的是能回答问题的指标：哪个 URI 慢？是 5xx 变多还是 2xx 变慢？是 JVM GC 抖动还是下游连接池耗尽？

另一个坑是标签失控。把 userId、orderId、完整 URL 这种高基数字段打进指标，会让监控系统时间序列爆炸，最后指标平台比业务服务先报警。

代码案例：低基数标签才适合进指标

下面这张图展示了一个典型错误：把订单号和用户 id 当 tag。指标标签要能聚合，适合放 result、type、uri 模板、exception 简类名这类低基数字段。

Micrometer Timer 指标标签代码对比 — 指标不是日志，不能把所有上下文都塞进 tag。

Timer timer = Timer.builder("order.query")
    .description("订单查询耗时")
    .tag("result", result)
    .publishPercentileHistogram()
    .serviceLevelObjectives(Duration.ofMillis(100), Duration.ofMillis(300), Duration.ofSeconds(1))
    .register(meterRegistry);

timer.record(() -> orderService.query(orderNo));

如果你需要定位单个用户或订单，应该把这些信息放日志、trace 或事件里，而不是放指标 tag。指标负责发现趋势，日志和 trace 负责定位个体。