首页 > 文章 > java教程

jstack分析Object.wait()与连接池耗尽问题

时间：2026-04-21 19:18:50 405浏览收藏

本文深入剖析了如何通过jstack线程快照精准识别数据库连接池耗尽这一典型线上性能瓶颈，重点揭示了仅搜索Object.wait()的误区，强调必须结合线程状态（WAITING/TIMED_WAITING而非BLOCKED）、栈帧上下文（ getConnection()调用链中出现Object.wait()或LockSupport.park()，且无后续JDBC操作）、以及数据库驱动类痕迹进行综合判断；同时厘清了HikariCP中wait()出现的真实位置与机制，并提供了区分配置不足、SQL慢查、连接泄漏及事务阻塞的关键监控指标与交叉验证方法，辅以线上紧急排查的三大实操线索——让开发者在纷繁的线程堆栈中快速锁定根因，直击连接池“假死”背后的真相。

如何通过 jstack 中的 Object.wait() 状态分析由于数据库连接池耗尽导致的业务线全量阻塞

怎么看 jstack 里哪些线程卡在数据库连接获取上

直接搜 Object.wait() 不够，得结合线程栈上下文判断是不是真卡在连接池。常见模式是：线程停在 DataSource.getConnection() 或 HikariPool.getConnection()、DruidDataSource.getConnectionDirect() 内部，且栈顶是 Object.wait()（或 LockSupport.park()，取决于池实现），同时调用链里有明确的数据库驱动类（如 com.mysql.cj.jdbc.ConnectionImpl 或 org.postgresql.core.v3.ConnectionFactoryImpl）。

关键识别点：

线程状态是 WAITING 或 TIMED_WAITING，不是 BLOCKED
栈中出现 java.lang.Object.wait()，且上层是连接池的 getConnection() 实现
没有后续 JDBC 操作（比如没看到 PreparedStatement.execute()），说明连连接都没拿到

为什么 HikariCP 里 wait() 出现在 getConnection() 而不是 acquire() 内部

HikariCP 默认使用 ConcurrentBag 管理连接，它内部用一个 ThreadLocal + 共享队列 + Semaphore 协作。当连接耗尽时，getConnection() 最终会走到 semaphore.tryAcquire(timeout, unit)，而底层 Semaphore 的公平/非公平实现，在争抢失败后会调用 LockSupport.park() 或 Object.wait()（取决于 JDK 版本和构造方式）。但 jstack 显示为 Object.wait() 通常是因为 HikariCP 1.x 或某些定制构建中用了 wait()/notify() 配合 synchronized 块做等待逻辑。

所以看到 Object.wait() 并不奇怪，重点看它出现在哪一层：

如果在 HikariPool.pollConnection() → ConcurrentBag.borrow() → synchronized (handoffQueue) { handoffQueue.wait() }，那就是典型的连接池空等
如果在 DriverManager.getConnection() 里，那大概率是驱动层问题，不是连接池耗尽

怎么确认是连接池配置太小，而不是 SQL 慢或连接泄漏

单看 jstack 不能 100% 定论，必须交叉验证：

查连接池监控指标：HikariCP 的 totalConnections、activeConnections、idleConnections —— 如果 active == maxPoolSize 且长期不降，基本锁死
查慢 SQL 日志：如果大量线程卡在 executeQuery() 后面，才是 SQL 问题；而卡在 getConnection() 前，说明连接拿不到
查连接未关闭痕迹：用 leakDetectionThreshold（HikariCP）或 removeAbandonedOnBorrow（Druid）开启泄漏检测，jstack 中若发现某线程拿了连接后栈里再没释放动作（比如没看到 Connection.close() 或 try-with-resources 结束），就是泄漏

特别注意：Spring 的 @Transactional 在传播行为为 REQUIRED 时会复用当前连接，如果事务方法执行时间长，也会“伪装”成连接池不够——此时 jstack 里线程可能显示在业务方法里，但根源仍是连接被占住不放。

线上紧急排查时该抓哪几条关键线索

别一上来就 dump 十次 jstack，优先聚焦三处：

统计 Object.wait() 线程数量：用 grep -A 5 -B 5 "Object\.wait" threaddump.log | grep "getConnection" -c，如果超过连接池最大值（比如 max=20，却有 47 个线程在等），基本实锤
看等待最久的线程时间戳：jstack 每段线程开头有 "http-nio-8080-exec-XX" #XX daemon prio=5 os_prio=0 tid=0x... nid=0x... waiting on condition [0x...]，对比系统 uptime，算出它卡了多久（比如 uptime 是 3 小时，而该线程创建于 2 小时 50 分前，说明等了 10 分钟）
检查是否有线程在 finalize 或 GC 相关栈里：如果大量线程卡在 ReferenceHandler 或 Finalizer，可能是 OOM 前兆，连接池对象无法及时回收，间接导致耗尽

真正难的是区分「瞬时高峰打满」和「连接泄漏」——前者重启后恢复，后者会随时间推移越来越快地再次耗尽。泄漏往往藏在异步线程、定时任务、或未被 Spring 管理的 Connection 手动创建场景里。

今天关于《jstack分析Object.wait()与连接池耗尽问题》的内容就介绍到这里了，是不是学起来一目了然！想要了解更多关于的内容请关注golang学习网公众号！

资料下载

编程学习资料下载

精选编程（Golang、Python、Java、C++、JavaScript等）教程、电子书与示例源码，一键打包本地下载学习。

立即下载