登录
首页 >  专题 >  Go 微服务可观测性与故障排查实战
Go 微服务可观测性与故障排查实战

Go 微服务可观测性与故障排查实战

日志、指标、链路追踪、pprof、健康检查与故障复盘
实战 中级 约320分钟 12浏览
这个专题面向正在维护 Go 微服务的开发者,目标是把线上排查需要的日志、指标、链路追踪、pprof、runtime 状态、健康检查、告警和复盘模板串成一套可执行方案。每篇文章都围绕一个真实排查问题,配套 AI 生成的思维导图、代码讲解图和运行逻辑图。
学习建议:建议按顺序阅读:先统一结构化日志,再设计 Prometheus 指标和 OpenTelemetry Trace,然后用 pprof、runtime/metrics 和 expvar 做深入诊断;第二阶段完善健康检查、goroutine 泄漏排查、错误告警、超时重试熔断和故障复盘。
10资源
10必学
2模块
5.3小时

建立 Go 可观测性信号

先把日志、指标、链路追踪、pprof 和 runtime 状态接起来。

Go 结构化日志实践:slog、request_id 与错误上下文怎么设计
文章 初级 必学

Go 结构化日志实践:slog、request_id 与错误上下文怎么设计

讲解 Go 服务如何用 slog 记录 request_id、trace_id、错误类型和业务字段,让日志可以直接支撑线上排查。
这是 Go 微服务线上排查闭环中的关键节点,建议结合图文、代码和指标一起落地。
Go Prometheus 指标设计:RED、USE 与自定义业务指标落地
文章 初级 必学

Go Prometheus 指标设计:RED、USE 与自定义业务指标落地

围绕 Go 服务指标体系,整理 RED、USE、Go runtime 指标和业务指标的设计方式。
这是 Go 微服务线上排查闭环中的关键节点,建议结合图文、代码和指标一起落地。
Go OpenTelemetry 链路追踪:Context 传播、Span 设计与慢调用定位
文章 中级 必学

Go OpenTelemetry 链路追踪:Context 传播、Span 设计与慢调用定位

介绍 Go 服务如何接入 OpenTelemetry,设计 Span、Attributes 和跨服务 Context 传播来定位慢调用。
这是 Go 微服务线上排查闭环中的关键节点,建议结合图文、代码和指标一起落地。
Go pprof 在线诊断:CPU、内存与 goroutine 问题怎么定位
文章 中级 必学

Go pprof 在线诊断:CPU、内存与 goroutine 问题怎么定位

用 net/http/pprof 和 go tool pprof 定位 Go 服务 CPU 热点、内存分配和 goroutine 阻塞问题。
这是 Go 微服务线上排查闭环中的关键节点,建议结合图文、代码和指标一起落地。
Go runtime/metrics 与 expvar:低成本暴露运行时状态
文章 中级 必学

Go runtime/metrics 与 expvar:低成本暴露运行时状态

介绍 runtime/metrics 和 expvar 的使用方式,用低成本接口暴露 goroutine、GC、内存和自定义状态。
这是 Go 微服务线上排查闭环中的关键节点,建议结合图文、代码和指标一起落地。

形成线上故障排查闭环

用健康检查、泄漏排查、错误告警、超时熔断和复盘模板降低故障成本。

Go HTTP 健康检查与优雅关闭:readiness、liveness 和 Shutdown 实战
文章 初级 必学

Go HTTP 健康检查与优雅关闭:readiness、liveness 和 Shutdown 实战

讲解 Go 服务如何设计 /healthz、/readyz 和 http.Server.Shutdown,避免发布和重启时丢请求。
这是 Go 微服务线上排查闭环中的关键节点,建议结合图文、代码和指标一起落地。
Go goroutine 泄漏排查:Context 取消、阻塞栈与泄漏定位
文章 中级 必学

Go goroutine 泄漏排查:Context 取消、阻塞栈与泄漏定位

整理 goroutine 泄漏的常见原因,用 context、pprof dump 和阻塞栈分组定位泄漏源。
这是 Go 微服务线上排查闭环中的关键节点,建议结合图文、代码和指标一起落地。
Go 错误处理与告警设计:errors 包装、日志字段与告警降噪
文章 中级 必学

Go 错误处理与告警设计:errors 包装、日志字段与告警降噪

从 errors.Is、errors.As、结构化日志和指标标签出发,设计能定位问题又不会刷屏的告警体系。
这是 Go 微服务线上排查闭环中的关键节点,建议结合图文、代码和指标一起落地。
Go 微服务超时、重试与熔断观测:避免故障放大的实践
文章 高级 必学

Go 微服务超时、重试与熔断观测:避免故障放大的实践

讲解 Go 服务调用下游时如何设置超时预算、退避重试、熔断状态和可观测指标。
这是 Go 微服务线上排查闭环中的关键节点,建议结合图文、代码和指标一起落地。
Go 线上故障复盘模板:日志、指标、链路追踪与 pprof 证据闭环
文章 初级 必学

Go 线上故障复盘模板:日志、指标、链路追踪与 pprof 证据闭环

把日志、指标、链路追踪和 pprof 串成 Go 服务故障复盘模板,形成可复用的排查闭环。
这是 Go 微服务线上排查闭环中的关键节点,建议结合图文、代码和指标一起落地。

相关专题

继续沿着相近方向学习

最新文章