Java问题排查:Arthas工具使用教程
时间:2026-04-21 13:54:44 340浏览 收藏
本文深入解析了Java线上问题排查中Arthas工具的实战痛点与避坑指南,涵盖JDK版本兼容性(如JDK 11+缺失sun.misc.Signal导致启动失败)、watch命令失效的底层原因(代理类、泛型擦除、字节码增强限制)、内网离线部署方案(禁用更新检查、使用完整离线包)、高CPU问题的精准定位逻辑(区分Java线程状态与真实CPU消耗源,结合native栈分析),并强调Arthas输出仅为瞬时线索,需联动heapdump、async-profiler等工具穿透表象——帮你避开90%的误判陷阱,真正用好这把JVM诊断利器。

Arthas 启动失败:找不到 java 或提示 NoClassDefFoundError: sun/misc/Signal
Arthas 依赖目标 JVM 的运行时类,不是所有 JDK 版本都默认包含 sun.misc.Signal(尤其 JDK 11+ 默认移除了该类)。启动报这个错,基本是 JDK 版本不兼容或 Arthas 自身版本太老。
- 用
java -version确认线上 JDK 是 OpenJDK 还是 Oracle JDK,以及具体版本(如17.0.2) - Arthas 3.6.0+ 才完整支持 JDK 17;JDK 11~16 推荐用 3.5.5;JDK 8 必须用 3.4.x 或更早
- 别直接下载官网首页的“最新版”——它可能已放弃对旧 JDK 的兼容;去 GitHub Releases 按 JDK 版本选 tag
- 启动命令别写成
./as.sh pid就完事,加-v看详细日志:./as.sh -v -p 12345
watch 命令返回空或超时:方法没被命中?参数没抓到?
watch 不是万能监听器,它依赖 JVM 的字节码增强(bytecode retransformation),而很多框架(Spring AOP、Lombok、CGLIB 代理)会让实际执行的方法和你写的源码不一致。
- 先用
sc -d *YourService*确认类是否已被加载,再用sm *YourService* methodName看方法签名是否匹配(注意泛型擦除后是Object还是String) - 如果方法在代理类里(比如
com.example.YourService$$EnhancerBySpringCGLIB$$abc123),就得 watch 那个代理类,而不是原始类名 - 避免用通配符过度匹配:
watch com.example.* * * -n 5可能触发大量增强,导致应用卡顿甚至 OOM - 加
-x 3展开深度,否则嵌套对象只显示toString()结果,看不出真实值
线上不能连公网,怎么离线部署 Arthas?
Arthas 启动时默认会检查更新、下载附加组件(如 arthas-spring-boot-starter),但内网环境没外网权限就会卡住或失败。
- 下载完整离线包:
arthas-bin.zip(不是arthas-boot.jar),解压后所有脚本和 jar 都在本地 - 启动前设环境变量禁用远程行为:
export ARTHAS_DISABLE_UPDATE_CHECK=true - 用
./as.sh --no-update-notifier -p 12345强制跳过检查 - 如果目标进程开了
SecurityManager,需确认RuntimePermission("accessDeclaredMembers")和ReflectPermission("suppressAccessChecks")已授权,否则ognl、watch全部失效
thread -n 5 显示的线程全是 WAITING,但 CPU 却飙高
CPU 高 ≠ 线程在 RUNNABLE,Java 线程状态是 JVM 层面的视图,而 CPU 使用可能来自 JNI 调用、GC、锁竞争、或 native 代码(比如 Netty 的 epoll_wait、Log4j2 的异步日志队列)。
- 先用
dashboard看整体 GC 频率和耗时,vmtool --action getInstances --className java.lang.Thread --limit 10查原生线程 ID(nid) - 配合系统命令定位:
top -Hp找出高 CPU 的线程,再用printf "%x\n"转为十六进制,去thread输出里搜 nid - 如果高 CPU 线程对应的是
Unsafe.park或epollWait,大概率是 I/O 等待或锁争用,不是 Java 方法本身耗 CPU - 别迷信
thread -n,它只看 Java 栈;真要深挖得结合async-profiler或perf抓 native stack
Arthas 是把好刀,但它的输出只是线索,不是结论。最常被忽略的是:它看到的永远是“快照”,而问题往往藏在两次快照之间的状态漂移里——比如一个被反复创建又丢弃的临时对象,在 watch 里一闪而过,但在 heapdump 里能看清引用链。
以上就是本文的全部内容了,是否有顺利帮助你解决问题?若是能给你带来学习上的帮助,请大家多多支持golang学习网!更多关于文章的相关知识,也可关注golang学习网公众号。
相关阅读
更多>
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
最新阅读
更多>
-
302 收藏
-
431 收藏
-
370 收藏
-
367 收藏
-
149 收藏
-
260 收藏
-
344 收藏
-
309 收藏
-
335 收藏
-
220 收藏
-
447 收藏
-
164 收藏
课程推荐
更多>
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 485次学习