登录
首页 >  文章 >  python教程

ephemeral 端口耗尽监控脚本分享

时间:2026-05-22 23:01:14 202浏览 收藏

本文深入解析了Linux系统中ephemeral端口耗尽的真实判断方法与高效监控实践,指出仅凭“Cannot assign requested address”错误无法直接归因于端口耗尽,需结合ip_local_port_range范围计算和ss精准统计活跃端口(覆盖ESTAB、TIME-WAIT等所有占用状态),并强调netstat易漏统计、ss更可靠;文中提供了一个轻量纯Bash监控脚本,自动读取端口范围、提取去重后的实际使用端口数,并以90%阈值触发预警,帮助运维人员快速识别真实风险,避免误判TIME-WAIT堆积或配置不当导致的假性耗尽问题。

ip_local_port_range 用尽后 bind 失败的 ephemeral port 耗尽监控脚本

如何判断 ip_local_port_range 真的用尽了

系统报 bind: Cannot assign requested addressconnect: Cannot assign requested address 时,不能直接断定是 ephemeral port 耗尽——更常见的是 TIME_WAIT 堆积、连接未复用、或 net.ipv4.ip_local_port_range 设置过窄。先确认当前范围:

cat /proc/sys/net/ipv4/ip_local_port_range
输出类似 32768 60999,共约 28232 个可用端口。再看已分配的 ephemeral 端口数量:
ss -tan | awk '$1 ~ /^(ESTAB|TIME-WAIT|FIN-WAIT-1|FIN-WAIT-2|SYN-SENT|SYN-RECV)$/ {print $4}' | awk -F':' '{print $2}' | sort -n | uniq -c | wc -l
这个数字接近上限(比如 >27000)才值得深入监控。

netstatss 统计结果为什么经常不一致

netstat 在高并发下会漏统计(尤其 TIME-WAIT),且默认不解析端口字段;ss 更轻量、内核态采样,推荐统一用它。关键区别在于:

  • ss -tan state time-wait | wc -l 只统计明确为 TIME-WAIT 的连接
  • ss -tan | awk '$1 ~ /^(ESTAB|TIME-WAIT|FIN-WAIT-1|FIN-WAIT-2|SYN-SENT|SYN-RECV)$/ {print $4}' 才覆盖所有可能占用 ephemeral port 的状态
  • 注意 $4 是本地地址+端口(如 10.0.1.5:42381),必须按 : 切分取第二段,否则会把 IP 当作端口误算

写一个轻量可靠的监控脚本

不用 Python 或复杂依赖,纯 Bash + 内置命令即可。核心逻辑:读取当前 port range → 提取所有活跃 ephemeral 端口 → 去重计数 → 对比阈值(建议设为 90%)。示例脚本:

#!/bin/bash
RANGE_FILE="/proc/sys/net/ipv4/ip_local_port_range"
MIN_PORT=$(awk '{print $1}' "$RANGE_FILE")
MAX_PORT=$(awk '{print $2}' "$RANGE_FILE")
TOTAL=$((MAX_PORT - MIN_PORT + 1))
USED=$(ss -tan | awk -v min="$MIN_PORT" -v max="$MAX_PORT" '
  $1 ~ /^(ESTAB|TIME-WAIT|FIN-WAIT-1|FIN-WAIT-2|SYN-SENT|SYN-RECV)$/ && $4 ~ /:[0-9]+$/ {
    split($4, a, ":"); port = a[2]
    if (port >= min && port /dev/null)
if [ "$USED" -gt $((TOTAL * 90 / 100)) ]; then
  echo "ALERT: ephemeral port usage ${USED}/${TOTAL} ($(echo "scale=1; $USED*100/$TOTAL" | bc)%)"
  exit 1
fi
注意:bc 仅用于百分比显示,非必需;sort -u 必须加,否则重复端口会被多算;2>/dev/null 屏蔽 ss 在无连接时的警告。

为什么只监控端口数还不够

即使 USED 远低于 TOTAL,仍可能 bind 失败——典型原因是大量连接卡在 TIME-WAITnet.ipv4.tcp_tw_reuse 关闭,导致端口无法快速回收。所以真实监控应同时检查:

  • sysctl net.ipv4.tcp_tw_reuse 是否为 1
  • ss -s | grep "TIME-WAIT" 的绝对数量(>5000 就需关注)
  • netstat -s | grep -i "embryonic connections dropped" 若有非零值,说明 SYN 队列溢出,和 port 耗尽无关但表现相似
单独盯 ip_local_port_range 容易误判,真正瓶颈常在 TCP 状态机调度上。

今天关于《ephemeral 端口耗尽监控脚本分享》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!

资料下载
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>