jstack分析Object.wait()与连接池耗尽问题
时间:2026-04-21 19:18:50 405浏览 收藏
本文深入剖析了如何通过jstack线程快照精准识别数据库连接池耗尽这一典型线上性能瓶颈,重点揭示了仅搜索Object.wait()的误区,强调必须结合线程状态(WAITING/TIMED_WAITING而非BLOCKED)、栈帧上下文( getConnection()调用链中出现Object.wait()或LockSupport.park(),且无后续JDBC操作)、以及数据库驱动类痕迹进行综合判断;同时厘清了HikariCP中wait()出现的真实位置与机制,并提供了区分配置不足、SQL慢查、连接泄漏及事务阻塞的关键监控指标与交叉验证方法,辅以线上紧急排查的三大实操线索——让开发者在纷繁的线程堆栈中快速锁定根因,直击连接池“假死”背后的真相。

怎么看 jstack 里哪些线程卡在数据库连接获取上
直接搜 Object.wait() 不够,得结合线程栈上下文判断是不是真卡在连接池。常见模式是:线程停在 DataSource.getConnection() 或 HikariPool.getConnection()、DruidDataSource.getConnectionDirect() 内部,且栈顶是 Object.wait()(或 LockSupport.park(),取决于池实现),同时调用链里有明确的数据库驱动类(如 com.mysql.cj.jdbc.ConnectionImpl 或 org.postgresql.core.v3.ConnectionFactoryImpl)。
关键识别点:
- 线程状态是
WAITING或TIMED_WAITING,不是BLOCKED - 栈中出现
java.lang.Object.wait(),且上层是连接池的getConnection()实现 - 没有后续 JDBC 操作(比如没看到
PreparedStatement.execute()),说明连连接都没拿到
为什么 HikariCP 里 wait() 出现在 getConnection() 而不是 acquire() 内部
HikariCP 默认使用 ConcurrentBag 管理连接,它内部用一个 ThreadLocal + 共享队列 + Semaphore 协作。当连接耗尽时,getConnection() 最终会走到 semaphore.tryAcquire(timeout, unit),而底层 Semaphore 的公平/非公平实现,在争抢失败后会调用 LockSupport.park() 或 Object.wait()(取决于 JDK 版本和构造方式)。但 jstack 显示为 Object.wait() 通常是因为 HikariCP 1.x 或某些定制构建中用了 wait()/notify() 配合 synchronized 块做等待逻辑。
所以看到 Object.wait() 并不奇怪,重点看它出现在哪一层:
- 如果在
HikariPool.pollConnection()→ConcurrentBag.borrow()→synchronized (handoffQueue) { handoffQueue.wait() },那就是典型的连接池空等 - 如果在
DriverManager.getConnection()里,那大概率是驱动层问题,不是连接池耗尽
怎么确认是连接池配置太小,而不是 SQL 慢或连接泄漏
单看 jstack 不能 100% 定论,必须交叉验证:
- 查连接池监控指标:HikariCP 的
totalConnections、activeConnections、idleConnections—— 如果active == maxPoolSize且长期不降,基本锁死 - 查慢 SQL 日志:如果大量线程卡在
executeQuery()后面,才是 SQL 问题;而卡在getConnection()前,说明连接拿不到 - 查连接未关闭痕迹:用
leakDetectionThreshold(HikariCP)或removeAbandonedOnBorrow(Druid)开启泄漏检测,jstack 中若发现某线程拿了连接后栈里再没释放动作(比如没看到Connection.close()或try-with-resources结束),就是泄漏
特别注意:Spring 的 @Transactional 在传播行为为 REQUIRED 时会复用当前连接,如果事务方法执行时间长,也会“伪装”成连接池不够——此时 jstack 里线程可能显示在业务方法里,但根源仍是连接被占住不放。
线上紧急排查时该抓哪几条关键线索
别一上来就 dump 十次 jstack,优先聚焦三处:
- 统计
Object.wait()线程数量:用grep -A 5 -B 5 "Object\.wait" threaddump.log | grep "getConnection" -c,如果超过连接池最大值(比如 max=20,却有 47 个线程在等),基本实锤 - 看等待最久的线程时间戳:jstack 每段线程开头有
"http-nio-8080-exec-XX" #XX daemon prio=5 os_prio=0 tid=0x... nid=0x... waiting on condition [0x...],对比系统 uptime,算出它卡了多久(比如 uptime 是 3 小时,而该线程创建于 2 小时 50 分前,说明等了 10 分钟) - 检查是否有线程在
finalize或 GC 相关栈里:如果大量线程卡在ReferenceHandler或Finalizer,可能是 OOM 前兆,连接池对象无法及时回收,间接导致耗尽
真正难的是区分「瞬时高峰打满」和「连接泄漏」——前者重启后恢复,后者会随时间推移越来越快地再次耗尽。泄漏往往藏在异步线程、定时任务、或未被 Spring 管理的 Connection 手动创建场景里。
今天关于《jstack分析Object.wait()与连接池耗尽问题》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于的内容请关注golang学习网公众号!
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
242 收藏
-
239 收藏
-
118 收藏
-
184 收藏
-
408 收藏
-
226 收藏
-
189 收藏
-
390 收藏
-
286 收藏
-
420 收藏
-
262 收藏
-
302 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 485次学习