首页 > 文章 > linux

Linux用awk统计IP访问次数脚本

时间：2026-04-28 13:03:34 495浏览收藏

本文深入解析了如何使用awk高效统计Web服务器日志中真实客户端IP的访问频次，不仅涵盖基础命令（如`awk '{print $1}' | sort | uniq -c | sort -nr`），更直击生产环境痛点：代理场景下需精准提取X-Forwarded-For头部的首个IP、过滤空行/错误码/健康检查等干扰项，并提供正则匹配IPv4/IPv6、端口剥离及单次扫描优化方案，让日志分析既准确又高性能——无论你是排查攻击源、识别热点用户，还是优化CDN策略，这套经过实战验证的脚本组合都能即开即用、稳准快。

Linux如何统计日志中每个IP的访问次数常用awk脚本

用awk按IP统计日志频次的核心命令

直接能跑通的命令是：awk '{print $1}' access.log | sort | uniq -c | sort -nr。前提是日志第一列确实是IP（如Apache默认格式），否则会统计错。Nginx默认也是$1，但若启用了real_ip模块且日志写的是$http_x_forwarded_for，那IP可能在最后一列或带逗号，得先清洗。

处理含代理头的多IP日志（如X-Forwarded-For）

当$http_x_forwarded_for被记录进日志（例如192.168.1.100, 203.0.113.5, 198.51.100.7），只取最左边的客户端IP才是真实访问者。不能直接awk '{print $NF}'——那会取到最后一个IP（通常是负载均衡地址）。正确做法是切分后取第一个非空字段：

awk '{if (NF >= 2 && $2 ~ /^"/) {gsub(/^"|"$/, "", $2); n=split($2, a, /,\s*/); print a[1]} else {print $1}}' access.log | sort | uniq -c | sort -nr

说明：$2对应日志中引号包裹的X-Forwarded-For字段；split($2, a, /,\s*/)按逗号+可选空格切分；a[1]即首个IP。

跳过无效行和注释，避免统计出错

日志里常混着空行、注释（#开头）、健康检查请求（如GET /healthz）或4xx/5xx错误行，全统计进去会干扰结果。加过滤条件更准：

/^[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}/ 匹配IPv4开头的行（排除日志头、空行）
!/(404|403|500|healthz|favicon\.ico)/ 排除常见干扰请求路径和状态码
$9 !~ /^2../ 可选：只统计HTTP 2xx响应（需确认$9是状态码字段）

组合起来：awk '/^[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}/ && !/(404|healthz)/ {print $1}' access.log | sort | uniq -c | sort -nr

性能优化：大日志文件别用管道链式调用

超过1GB的日志，sort | uniq -c | sort会读三遍磁盘，慢且占内存。改用awk单次扫描更高效：

awk '/^[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}/ && !/404/ {ip[$1]++} END {for (i in ip) print ip[i], i}' access.log | sort -nr

注意：ip[$1]++自动去重计数，END块统一输出；但内存占用随唯一IP数线性增长，千万级IP慎用；排序仍需外部sort -nr，因awk数组遍历无序。

IPv6支持要额外处理，正则得改成^([0-9a-fA-F:]+:+)+[0-9a-fA-F]+，且$1可能含端口（如[::1]:54321），得先用sub(/:\d+$/, "", $1)剥离。

好了，本文到此结束，带大家了解了《Linux用awk统计IP访问次数脚本》，希望本文对你有所帮助！关注golang学习网公众号，给大家分享更多文章知识！

资料下载

编程学习资料下载

精选编程（Golang、Python、Java、C++、JavaScript等）教程、电子书与示例源码，一键打包本地下载学习。

立即下载