登录
首页 >  文章 >  linux

Linux下用Smartctl检测硬盘健康状态

时间:2026-05-06 09:54:46 310浏览 收藏

Linux下用smartctl检测硬盘健康状况远比简单查看`smartctl -H`是否返回PASSED复杂得多——该结果极易误导用户,因它仅依赖少数静态阈值,完全无法捕捉SSD早期磨损、备用块耗尽、不可纠正错误等真实风险;真正可靠的判断必须深入`smartctl -A`输出,区分NVMe(盯Percentage Used、Available Spare)与SATA SSD(看Media_Wearout_Indicator、Reallocated_Sector_Ct)的关键属性,并持续追踪其变化趋势;同时需警惕自检可能干扰SSD控制器、识别FAILING_NOW等临界告警、避免依赖无效参数,否则看似“正常”的硬盘可能已在数据丢失边缘。

Linux下使用Smartctl检测硬盘健康状况 预警固态硬盘故障【详解】

smartctl -H 返回 PASSED 就安全?别信

很多用户看到 smartctl -H /dev/nvme0n1 输出 PASSED 就放下心,这是最危险的误判。SMART 整体健康评估只看几个关键阈值是否越界,而 SSD 的早期磨损、备用块耗尽、接口错误等根本不会触发它。真实风险藏在具体属性里,比如 Percentage Used(NVMe)或 Media_Wearout_Indicator(SATA SSD),这些值一旦接近 100%,即使 -H 还是 PASSED,也该立刻安排数据迁移。

SSD 关键属性怎么看:NVMe 和 SATA 完全不同

SSD 厂商对 SMART 属性命名不统一,必须按接口类型区分查看方式:

  • NVMe 盘(如 /dev/nvme0n1)用 sudo smartctl -A /dev/nvme0n1,重点盯:Percentage Used(已用寿命百分比)、Available Spare(剩余备用块比例)、Available Spare Threshold(触发警告的下限)
  • SATA SSD(如 /dev/sda)用同样命令,但关注:Media_Wearout_Indicator(越小越糟,典型安全值 >1)、Reallocated_Sector_Ct(非零即警讯)、Uncorrect(不可纠正错误数)
  • 别看 Raw_Read_Error_RateSeek_Error_Rate —— 这些在 SSD 上无意义,数值受固件编码影响,跨盘不可比

执行自检前必须确认三件事

smartctl -t long 对 SSD 来说不是“慢”,而是可能干扰控制器后台任务,尤其在高负载时引发 I/O 卡顿甚至写入延迟飙升。执行前务必确认:

  • 目标设备未被 ddrsync、数据库进程直接读写(否则报 Device or resource busy
  • 不是系统根盘且未挂载为 //boot(部分 NVMe 驱动在自检中会短暂冻结队列)
  • 先运行 smartctl -c /dev/nvme0n1 看是否支持 long 自检;老旧 USB-SATA 转接器或某些 PCIe 拓展卡常直接拒绝该命令

检测中用 smartctl -l selftest /dev/nvme0n1 查状态,结果不会自动落日志,必须手动提取。

发现 “FAILING_NOW” 或 “Pre-fail” 属性就停手

smartctl -A 输出里,如果任意一行的 WHEN_FAILED 列显示 FAILING_NOWPre-fail,说明该属性已跌破厂商硬阈值,硬盘处于故障临界点。此时:

  • 立即停止写入,避免触发更多重映射或耗尽备用块
  • dd if=/dev/zero of=/tmp/test bs=1M count=100 快速验证写入是否稳定(若报 I/O 错误,基本可判定失效)
  • 不要依赖 smartctl -X 中断自检——它对 NVMe 无效,有些 SATA SSD 也不响应

真正可靠的预警不是某次命令的结果,而是连续几天观察 Percentage UsedAvailable Spare 的变化趋势。跳变 2% 以上,就得当回事。

今天带大家了解了的相关知识,希望对你有所帮助;关于文章的技术知识我们会一点点深入介绍,欢迎大家关注golang学习网公众号,一起学习编程~

资料下载
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>