首页 > 文章 > linux

Linux下查看SSD寿命与健康状态方法

时间：2026-04-14 16:13:39 291浏览收藏

在Linux系统中，准确评估SSD寿命与健康状态不能依赖df或iostat等常规工具，而必须使用smartctl直接读取底层SMART数据——这是唯一可靠的方法；文章详解了NVMe与SATA SSD在关键指标（如Percentage Used、Media_Wearout_Indicator、Available Spare、Reallocated_Sector_Ct）上的命名差异与解读陷阱，强调误读原始值可能导致严重误判，并提供了从手动检测、定时告警到smartd守护进程的全链路监控方案，同时指出真正需要立即更换SSD的信号不仅包括SMART数值告警（如Percentage Used ≥ 95或Available Spare跌破阈值），更在于内核日志中反复出现的UNCORR错误、控制器宕机及无法修复的I/O异常，提醒用户：无论消费级还是企业级SSD，都不能跳过SMART检查，因为标称TBW在真实负载下往往大幅缩水。

Linux怎么查看固态硬盘(SSD)寿命及健康状态

用 `smartctl` 查 SSD 健康状态最可靠

Linux 下判断 SSD 是否快挂了，smartctl 是唯一值得依赖的工具。它直接读取硬盘内置的 SMART 数据，不依赖文件系统或内核抽象层。很多用户误以为 df 或 iostat 能反映寿命，其实它们只看使用量和 I/O 性能，完全不涉及 NAND 擦写次数、坏块增长等关键指标。

先确认 SSD 设备名（通常是 /dev/nvme0n1 或 /dev/sda），再运行：

sudo smartctl -a /dev/nvme0n1

注意：NVMe 盘必须用 -a（不是 -A），SATA/ATA 盘两者都可，但推荐统一用 -a 保证完整输出。

重点关注这几项：

Percentage Used（NVMe）或 Media_Wearout_Indicator（SATA）：数值越接近 100，剩余寿命越少
Available Spare 和 Available Spare Threshold（NVMe）：前者低于后者即告警
Reallocated_Sector_Ct（SATA）：非零值需警惕，说明已出现不可恢复的物理坏块

区分 NVMe 和 SATA SSD 的参数含义差异

NVMe 和 SATA SSD 的 SMART 字段命名、单位、阈值逻辑完全不同，混看会误判。比如同样叫 “wear leveling”，SATA 盘用 Wear_Leveling_Count（原始值越大越好），而 NVMe 盘用 Percentage Used（原始值越大越差）。

常见误区：

看到 Wear_Leveling_Count 原始值是 200 就以为“还有 200% 寿命”——错，这是归一化后的相对值，要看 RAW_VALUE 列或更关键的 THRESH 对比
对 NVMe 盘执行 smartctl -A /dev/nvme0n1 会漏掉 Percentage Used，必须用 -a
Temperature_Celsius 在 SATA 盘里是标准字段，在 NVMe 里可能显示为 Temperature: 35 C 单行，不进表格

自动监控可用的轻量方案

不想每次手动敲命令？可以加个简单定时检查，避免某天突然掉盘。

例如每 6 小时检查一次 Percentage Used，超 85 就发邮件（假设已配置 mail）：

0 */6 * * * sudo smartctl -a /dev/nvme0n1 | grep "Percentage Used" | awk '{if ($4 > 85) system(\"echo \\"SSD health warning: "$4"% used\\" | mail -s \\"SSD Alert\\" admin@local\")}'

更稳妥的做法是用 smartd 守护进程（smartmontools 自带），它支持自定义告警条件、日志记录和执行脚本。启用前务必编辑 /etc/smartd.conf，加入类似行：

DEVICESCAN -d nvme -a -m root -M exec /usr/share/smartmontools/smartd-runner

注意：-d nvme 不可省略，否则 smartd 默认按 ATA 模式探测，会跳过 NVMe 盘。

哪些现象说明 SSD 已进入高危状态

SMART 数值只是参考，真正要动手换盘的信号往往来自运行时异常：

反复出现 nvme 0000:01:00.0: controller is down 或 ataX.00: failed command: READ FPDMA QUEUED 错误
sudo dmesg | grep -i "nvme\|ata\|error" 输出中频繁出现 UNCORR（uncorrectable）或 ABRT（abort）
突然大量 Input/output error 且无法通过 fsck 修复（SSD 级别错误，文件系统无能为力）
smartctl 显示 Available Spare 降到阈值以下，或 Percentage Used ≥ 95 —— 这时即使还能用，也建议 48 小时内完成数据迁移

特别提醒：消费级 SSD 的标称 TBW（总写入字节数）是实验室理想值，实际在高队列深度、随机小写负载下衰减更快；企业级盘虽有 PLP（断电保护）和更强磨损均衡，但 SMART 中的 Percentage Used 同样适用，不能跳过检查。

今天关于《Linux下查看SSD寿命与健康状态方法》的内容就介绍到这里了，是不是学起来一目了然！想要了解更多关于的内容请关注golang学习网公众号！

Linux下查看SSD寿命与健康状态方法

用 smartctl 查 SSD 健康状态最可靠

区分 NVMe 和 SATA SSD 的参数含义差异

自动监控可用的轻量方案

哪些现象说明 SSD 已进入高危状态

用 `smartctl` 查 SSD 健康状态最可靠