登录
首页 >  文章 >  linux

Linux用awk统计IP访问次数脚本

时间:2026-04-28 13:03:34 495浏览 收藏

本文深入解析了如何使用awk高效统计Web服务器日志中真实客户端IP的访问频次,不仅涵盖基础命令(如`awk '{print $1}' | sort | uniq -c | sort -nr`),更直击生产环境痛点:代理场景下需精准提取X-Forwarded-For头部的首个IP、过滤空行/错误码/健康检查等干扰项,并提供正则匹配IPv4/IPv6、端口剥离及单次扫描优化方案,让日志分析既准确又高性能——无论你是排查攻击源、识别热点用户,还是优化CDN策略,这套经过实战验证的脚本组合都能即开即用、稳准快。

Linux如何统计日志中每个IP的访问次数 常用awk脚本

用awk按IP统计日志频次的核心命令

直接能跑通的命令是:awk '{print $1}' access.log | sort | uniq -c | sort -nr。前提是日志第一列确实是IP(如Apache默认格式),否则会统计错。Nginx默认也是$1,但若启用了real_ip模块且日志写的是$http_x_forwarded_for,那IP可能在最后一列或带逗号,得先清洗。

处理含代理头的多IP日志(如X-Forwarded-For)

$http_x_forwarded_for被记录进日志(例如192.168.1.100, 203.0.113.5, 198.51.100.7),只取最左边的客户端IP才是真实访问者。不能直接awk '{print $NF}'——那会取到最后一个IP(通常是负载均衡地址)。正确做法是切分后取第一个非空字段:

awk '{if (NF >= 2 && $2 ~ /^"/) {gsub(/^"|"$/, "", $2); n=split($2, a, /,\s*/); print a[1]} else {print $1}}' access.log | sort | uniq -c | sort -nr

说明:$2对应日志中引号包裹的X-Forwarded-For字段;split($2, a, /,\s*/)按逗号+可选空格切分;a[1]即首个IP。

跳过无效行和注释,避免统计出错

日志里常混着空行、注释(#开头)、健康检查请求(如GET /healthz)或4xx/5xx错误行,全统计进去会干扰结果。加过滤条件更准:

  • /^[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}/ 匹配IPv4开头的行(排除日志头、空行)
  • !/(404|403|500|healthz|favicon\.ico)/ 排除常见干扰请求路径和状态码
  • $9 !~ /^2../ 可选:只统计HTTP 2xx响应(需确认$9是状态码字段)

组合起来:awk '/^[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}/ && !/(404|healthz)/ {print $1}' access.log | sort | uniq -c | sort -nr

性能优化:大日志文件别用管道链式调用

超过1GB的日志,sort | uniq -c | sort会读三遍磁盘,慢且占内存。改用awk单次扫描更高效:

awk '/^[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}/ && !/404/ {ip[$1]++} END {for (i in ip) print ip[i], i}' access.log | sort -nr

注意:ip[$1]++自动去重计数,END块统一输出;但内存占用随唯一IP数线性增长,千万级IP慎用;排序仍需外部sort -nr,因awk数组遍历无序。

IPv6支持要额外处理,正则得改成^([0-9a-fA-F:]+:+)+[0-9a-fA-F]+,且$1可能含端口(如[::1]:54321),得先用sub(/:\d+$/, "", $1)剥离。

好了,本文到此结束,带大家了解了《Linux用awk统计IP访问次数脚本》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多文章知识!

资料下载
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>