登录
首页 >  文章 >  linux

Linux部署Node-Exporter+Grafana监控教程

时间:2026-05-23 19:51:19 146浏览 收藏

本文深入解析了Linux环境下部署Node-Exporter与Grafana构建主机监控系统的完整链路与高频踩坑点,明确指出该监控组合必须依赖Prometheus作为核心数据采集与存储枢纽——Node-Exporter负责在被监控物理机本地暴露硬件指标(默认:9100),Prometheus负责远程抓取并存储时序数据,Grafana仅作为可视化层查询渲染;文章直击三大典型故障场景:node_exporter启动后/metrics为空的深层原因(SELinux拦截、内核模块缺失、端口冲突、路由前缀误配)、Prometheus targets配置中localhost语义混淆导致抓取失败、以及Grafana面板“No data”背后的指标缺失、job/instance标签不匹配和scrape间隔不合理等关键细节,并给出精准可操作的排查命令与修复方案,助你避开90%的部署陷阱,快速搭建稳定可靠的Linux主机监控体系。

Linux环境下部署Node-Exporter+Grafana 监控物理机性能指标

Node-Exporter 必须运行在被监控物理机本地,且默认监听 :9100;Grafana 本身不采集数据,只负责从 Prometheus 查询并渲染图表——所以“Node-Exporter + Grafana”这个组合缺了 Prometheus 就完全跑不起来。

node_exporter 启动后访问 http://localhost:9100/metrics 返回空或 404

这不是 Grafana 的问题,而是 node_exporter 没真正提供指标。常见原因有:

  • 进程启动失败但没报错:用 ps aux | grep node_exporter 确认进程是否存在;若无,检查是否被 SELinux 或防火墙拦截(setsebool -P prometheus_can_network on 或临时 setenforce 0
  • 二进制权限问题:某些系统(如 CentOS 7)需加 --no-collector.wifi --no-collector.xfs 避免因内核模块缺失导致启动卡住
  • 端口被占用:lsof -i :9100 查看冲突进程,改用 --web.listen-address=":9101" 换端口
  • 指标路径不是 /metrics:确认没误加 --web.route-prefix,否则真实路径会变成 /prefix/metrics

prometheus.yml 中 targetslocalhost:9100 却抓不到数据

Prometheus 默认从自身所在机器发起抓取请求,localhost 指的是 Prometheus 进程所在的机器,不是被监控的物理机。部署时容易混淆这点:

  • 如果 Prometheus 和 node_exporter 在同一台物理机:用 localhost:9100 是对的
  • 如果 Prometheus 装在 A 机,node_exporter 装在 B 机(典型物理机监控场景):targets 必须写 B 机的真实 IP,例如 ['192.168.1.102:9100'],不能写 localhost
  • 确保 B 机的 firewalldufw 放行 9100 端口(firewall-cmd --permanent --add-port=9100/tcp
  • 抓取失败时,去 Prometheus UI 的 Status > Targets 页面看具体错误(如 connection refusedtimeout

Grafana 添加 Prometheus 数据源后测试成功,但导入面板显示 “No data”

这说明连接通了,但查询不到有效时间序列。重点排查指标是否存在和标签匹配:

  • 先在 Prometheus UI 的 Graph 页面手动执行 node_cpu_seconds_total,看是否有结果;没有就说明 node_exporter 根本没上报成功
  • 检查 job 名称和 instance 标签是否与面板 JSON 中的变量一致:比如面板里写的是 job="linux",但你的 prometheus.yml 里是 job_name: "physical-server",就会查不到
  • 部分旧版 Grafana 面板(如 ID 1860)默认用 instance=~".*",而新版本 node_exporter 可能带上了主机名+端口(如 host.example.com:9100),需要改成 instance=~".+:9100" 或直接删掉该过滤条件
  • 确认 scrape_interval 设置合理(建议 ≤30s),太长会导致首次加载延迟明显

最容易被忽略的一点:node_exporter 默认不收集某些高开销指标(如 textfilebonding),但如果你手动启用了 --collector.systemd,却没装 systemd-devel 或权限不足,整个进程可能静默退出——务必用 journalctl -u node_exporter -n 50 看真实日志,别只信 ps 显示在运行。

文中关于的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《Linux部署Node-Exporter+Grafana监控教程》文章吧,也可关注golang学习网公众号了解相关技术文章。

资料下载
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>