首页 > 文章 > python教程

Python正则表达式教程：文本匹配与替换技巧

时间：2026-05-06 19:30:59 319浏览收藏

这篇文章聚焦于Python正则表达式在真实文本处理场景中的高效应用，摒弃死记硬背语法的误区，通过手机号精准提取（兼顾格式、防误匹配与词边界）、日志清洗（批量剥离时间戳和IP保留关键信息）、文件批量重命名（利用捕获组灵活调换与格式化）以及邮箱识别与HTML链接生成（强调边界控制与实用性校验）四大典型实例，手把手教你用最少、最实用的正则模式解决日常开发中最棘手的文本问题——学完就能上手，真正让正则成为你自动化处理文本的趁手利器。

Python正则表达式实战案例_文本匹配与替换技巧【教程】

Python正则表达式不是背语法，而是解决实际文本问题的工具。掌握几个典型场景的写法，比记满页符号更有用。

提取手机号：兼顾常见格式和防误匹配

国内手机号通常为11位，以1开头，第二位常见3-9；但要注意避开“110”“119”等特殊号段，也别把带分隔符的字符串（如138-1234-5678）错当有效号码。

基础匹配：r'1[3-9]\d{9}' —— 精准抓纯数字11位手机号
支持空格/短横线：r'1[3-9]\d{2}[-\s]?\d{4}[-\s]?\d{4}'，注意?表示前面的分隔符可有可无
防止匹配到更长数字中的子串：用 \b（词边界）包住，如 r'\b1[3-9]\d{9}\b'

清洗日志行：去掉时间戳和IP，保留核心信息

服务器日志常形如 [2024-03-15 14:22:08] 192.168.1.100 "GET /api/user HTTP/1.1" 200，想只留请求路径和状态码。

先用 re.sub() 去掉开头时间：re.sub(r'^\[.*?\]\s+', '', line)
再删IP和引号包裹的请求行：re.sub(r'\d+\.\d+\.\d+\.\d+\s+"[^"]*"\s+', '', line)
组合起来更简洁：re.sub(r'^\[.*?\]\s+\d+\.\d+\.\d+\.\d+\s+"[^"]*"\s+', '', line)

批量重命名文件：从“report_20240315_v2.txt”改成“2024-03-15-report-v2.txt”

关键在捕获年月日并插入分隔符，同时调换字段顺序。

匹配原名结构：r'report_(\d{4})(\d{2})(\d{2})_v(\d+)\.txt'，括号用于分组捕获
替换为：r'\1-\2-\3-report-v\4.txt'，\1 \2 \3 \4 对应四个捕获组
完整示例：re.sub(r'report_(\d{4})(\d{2})(\d{2})_v(\d+)\.txt', r'\1-\2-\3-report-v\4.txt', filename)

识别并高亮邮箱：在HTML中给邮箱加mailto链接

不是简单找@，要确保前后是合理字符边界，避免匹配到“abc@def@ghi”或“email@test.”这种无效串。

推荐邮箱模式：r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'
配合 re.sub() 生成链接：re.sub(r'(\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b)', r'\1', text)
注意：真实项目建议用 email-validator 库校验，正则仅作初步筛选

本篇关于《Python正则表达式教程：文本匹配与替换技巧》的介绍就到此结束啦，但是学无止境，想要了解学习更多关于文章的相关知识，请关注golang学习网公众号！

最新阅读

更多>

文章 · python教程 | 10小时前 | 支付 · python · decimal · 数据精度 · Python Decimal quantize ROUND_HALF_UP 金额精度

Python Decimal 金额为什么多出 0.01：quantize、ROUND_HALF_UP 与浮点输入排查

374 收藏
文章 · python教程 | 1天前 |

Python multiprocessing.Pool 停机后进程仍不退：close、terminate、join 顺序排查

133 收藏
文章 · python教程 | 1天前 |

Python logging.QueueHandler 怎么避免业务线程被慢日志拖住：队列、监听器与停机收尾

322 收藏
文章 · python教程 | 1天前 | [] · []

Python sqlite3 事务为什么没回滚：autocommit、with connect 和显式 rollback 的边界

136 收藏
文章 · python教程 | 3天前 |

Python subprocess 超时后子进程还在跑：用进程组和收尾顺序彻底清理

496 收藏
文章 · python教程 | 3天前 | 文件处理 · python · pathlib · 脚本安全 · Python pathlib 批量清理临时文件文件修改时间目录边界校验

Python pathlib 批量清理临时文件：后缀、修改时间和目录边界这样校验

219 收藏
文章 · python教程 | 5天前 |

Python asyncio.gather 异常为什么会提前结束：return_exceptions 与任务取消边界

210 收藏
文章 · python教程 | 5天前 | 并发 · 日志 · 性能 · python · Python logging QueueHandler QueueListener 并发日志

Python 高并发日志怎么避免拖慢请求：QueueHandler、QueueListener 与退出边界

268 收藏
文章 · python教程 | 5天前 |

Python 百万行 CSV 怎么处理：csv 流式读取、pandas chunksize 与 SQLite 导入的取舍

330 收藏
文章 · python教程 | 1星期前 | 并发 · python · 故障排查 · asyncio · 任务取消 · Python asyncio.create_task Python 任务取消 asyncio CancelledError Python 异步任务收尾

Python asyncio.create_task 取消后为什么还在跑：从引用丢失到任务收尾的故障复盘

490 收藏
文章 · python教程 | 1星期前 | HTTP · 性能优化 · python · asyncio · Python 并发控制连接池 asyncio httpx

Python asyncio 批量请求变慢：用连接池和并发上限稳住接口耗时

196 收藏
文章 · python教程 | 1星期前 | Python教程 · 数据生命周期 · 批量导出 · 文件清理 · 任务状态 · 临时文件过期清理任务状态 Python批量导出导出任务

Python 批量导出任务怎么做过期清理：状态文件、临时结果和查询边界

495 收藏

课程推荐

更多>

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

立即学习 543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

立即学习 516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

立即学习 500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

立即学习 487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

立即学习 485次学习