首页 > 文章 > python教程

Python 正则解析日志实战：命名分组、错误行兜底和接口统计

来源：17golang原创

时间：2026-06-14 14:01:51 308浏览收藏

线上排查接口问题时，经常会拿到一份访问日志：时间、方法、路径、状态码、耗时、客户端 IP 都挤在一行里。如果每次都靠手工复制、筛选、排序，很容易漏掉慢接口和异常状态码。

Python 的 re 模块很适合做这种轻量日志解析。本文用一份简化访问日志做例子，演示如何用命名分组提取字段、如何保留格式不符合预期的错误行，以及如何统计接口访问次数、状态码分布和慢请求。

适合人群

本文适合需要处理 Nginx、应用访问日志、任务日志、接口调试文本的 Python 初学者。你需要了解基本文件读取、字典和列表操作，不需要复杂数据分析框架。

先确定日志格式和目标字段

写正则之前，先把日志格式和你要的字段列清楚。假设日志长这样：

2026-06-14 13:20:01 GET /api/user 200 38ms 10.0.0.12
2026-06-14 13:20:02 POST /api/order 500 812ms 10.0.0.18
2026-06-14 13:20:03 GET /api/goods 200 42ms 10.0.0.13

这类日志里，通常至少需要提取 6 个字段：时间、方法、路径、状态码、耗时、客户端 IP。提取后就可以做过滤、排序、聚合和导出。

Python 正则命名分组解析日志流程图，展示原始日志、命名分组、字段字典、错误行和统计结果

用命名分组把一行日志转成字典

命名分组的好处是结果字段更清晰，不用记第几个括号对应哪个字段。

import re

line_pattern = re.compile(
    r'^(?P\\d{4}-\\d{2}-\\d{2} \\d{2}:\\d{2}:\\d{2}) '
    r'(?PGET|POST|PUT|DELETE|PATCH) '
    r'(?P/\\S*) '
    r'(?P\\d{3}) '
    r'(?P\\d+)ms '
    r'(?P\\d+\\.\\d+\\.\\d+\\.\\d+)$'
)


def parse_line(line):
    match = line_pattern.match(line.strip())
    if not match:
        return None

    item = match.groupdict()
    item['status'] = int(item['status'])
    item['cost'] = int(item['cost'])
    return item


sample = '2026-06-14 13:20:02 POST /api/order 500 812ms 10.0.0.18'
print(parse_line(sample))

输出结果会是一个字段字典，后续处理就不再依赖原始字符串的位置。

{
    'time': '2026-06-14 13:20:02',
    'method': 'POST',
    'path': '/api/order',
    'status': 500,
    'cost': 812,
    'ip': '10.0.0.18'
}

错误行不要丢，单独保存原因

日志解析最常见的问题不是正则写不出来，而是线上日志总会混入格式不一致的行。直接跳过会让结果看起来很干净，但你会失去排查线索。

from pathlib import Path


def parse_file(path):
    rows = []
    bad_lines = []

    for line_no, line in enumerate(Path(path).read_text(encoding='utf-8').splitlines(), 1):
        item = parse_line(line)
        if item is None:
            bad_lines.append({
                'line_no': line_no,
                'raw': line,
                'reason': '格式不匹配',
            })
            continue
        rows.append(item)

    return rows, bad_lines

保存 bad_lines 的价值很大：你可以判断是日志格式变了、字段缺失、代理插入了额外内容，还是某个服务输出了不同模板。

统计接口次数、状态码和慢请求

字段结构稳定后，统计就很直接。下面代码统计每个接口的访问次数、状态码分布，并找出耗时超过 500ms 的慢请求。

from collections import Counter


def build_report(rows):
    path_counter = Counter()
    status_counter = Counter()
    slow_rows = []

    for item in rows:
        path_counter[item['path']] += 1
        status_counter[item['status']] += 1
        if item['cost'] >= 500:
            slow_rows.append(item)

    slow_rows.sort(key=lambda x: x['cost'], reverse=True)

    return {
        'top_path': path_counter.most_common(10),
        'status': dict(status_counter),
        'slow_rows': slow_rows[:20],
    }

Python 日志解析统计流程图，展示读取文件、逐行匹配、缺失兜底、统计接口和生成报告