Python与Postgres正则差异及迁移方法
时间:2026-02-01 22:18:46 471浏览 收藏
IT行业相对于一般传统行业,发展更新速度更快,一旦停止了学习,很快就会被行业所淘汰。所以我们需要踏踏实实的不断学习,精进自己的技术,尤其是初学者。今天golang学习网给大家整理了《Python 与 PostgreSQL 正则差异及迁移攻略》,聊聊,我们一起来看看吧!

Python 的 `re` 模块与 PostgreSQL 的 POSIX 正则引擎在元字符、修饰符位置、边界断言等方面存在显著差异,直接复用会导致语法错误或语义偏差;本文详解关键区别,并提供可直接用于 PostgreSQL 的等效写法。
正则表达式并非“一次编写,处处运行”的标准——不同系统采用的正则引擎(如 Python 的 PCRE-like re、PostgreSQL 的 POSIX ERE/ARE、JavaScript 的 ECMAScript、Java 的 java.util.regex)在语法支持、语义定义和行为细节上各不相同。你遇到的错误:
SELECT (regexp_matches('Jl. ABC No.01', '^(.*?)(?i)\b no\b'))[1];
-- ERROR: invalid regular expression: quantifier operand invalid正是典型体现:PostgreSQL 不支持内联修饰符 (?i) 出现在模式中间(如 (?i)\b no\b),且其 \b 并非“单词边界”,而是字面意义的退格字符(backspace) —— 这与 Python 中 \b 表示 word boundary 完全不同。
✅ 正确的 PostgreSQL 等效写法
PostgreSQL 使用 ARE(Advanced Regular Expressions),要求所有嵌入选项(如大小写不敏感)必须置于正则表达式开头,且使用 \y(word boundary)、\m(word start)、\M(word end)替代 \b:
| Python 写法 | PostgreSQL 等效写法 | 说明 |
|---|---|---|
| (?i)\bno\b | (?i)\y no \y | (?i) 必须前置;\y = word boundary |
| ^(.*?)(?i)\b no\b | (?i)^(.*?)\y no \y | 非贪婪 *? 在 PostgreSQL 中仍有效(ARE 支持) |
| \bno\.?\s*([\dA-Z]+) | (?i)\y no \.? \s* ([\dA-Z]+) | 同样需前置 (?i),. 需转义为 \. |
⚠️ 注意:PostgreSQL 的 regexp_matches() 返回 text[] 数组,索引从 1 开始;若要提取捕获组,推荐使用更直观的 REGEXP_REPLACE 或 SUBSTRING(... FROM ...)。
✅ PostgreSQL 实战:拆分 street 和 house_number
假设表 addresses 含列 address TEXT,目标新增 street 和 house_number:
-- 添加列(可选) ALTER TABLE addresses ADD COLUMN street TEXT, ADD COLUMN house_number TEXT; -- 填充 street:提取 "No" 之前的部分(不包含 "No" 及其前导空格) UPDATE addresses SET street = TRIM( SUBSTRING(address FROM '(?i)^(.*?)\y no \y') ); -- 填充 house_number:提取 "No" 后紧跟的编号(支持 "No.01", "NO 12B" 等) UPDATE addresses SET house_number = TRIM( SUBSTRING(address FROM '(?i)\y no \.? \s* ([\dA-Z]+)') );
✅ 示例验证:
SELECT
address,
SUBSTRING('Jl. ABC No.01' FROM '(?i)^(.*?)\y no \y') AS street,
SUBSTRING('Jl. ABC No.01' FROM '(?i)\y no \.? \s* ([\dA-Z]+)') AS house_number;
-- 结果:street = 'Jl. ABC', house_number = '01'? 关键差异速查表
| 特性 | Python (re) | PostgreSQL (ARE) | 迁移建议 |
|---|---|---|---|
| 大小写不敏感 | (?i) 可放任意位置 | (?i) 必须位于正则开头 | 移至最前方 |
| 单词边界 | \b | \y(或 \m/\M) | 全部替换为 \y |
| 非贪婪量词 | *?, +?, {n,m}? | ✅ 支持(ARE 默认启用) | 可保留 |
| 点号匹配换行 | 默认不匹配(需 re.DOTALL) | . 默认不匹配换行 | 无需额外处理 |
| 转义点号 . | \., \\. 均可 | 必须 \., \\. 会被解释为反斜杠+点 | 统一用 \. |
✅ 总结
- ❌ 不要将 Python 正则原样复制到 PostgreSQL;
- ✅ 所有修饰符((?i)、(?m) 等)必须置于正则最前端;
- ✅ 将 \b 全部替换为 \y(单词边界),避免误匹配退格符;
- ✅ 使用 SUBSTRING(col FROM 'regex') 替代 regexp_matches() 提取单个捕获组,更简洁可靠;
- ✅ 在生产环境上线前,务必用 SELECT SUBSTRING(...) 对典型地址样本做充分测试。
掌握这些核心差异,即可高效、安全地将地址解析逻辑从 Pandas 迁移至数据库层,提升 ETL 性能与一致性。
今天关于《Python与Postgres正则差异及迁移方法》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
135 收藏
-
133 收藏
-
207 收藏
-
147 收藏
-
185 收藏
-
257 收藏
-
273 收藏
-
335 收藏
-
225 收藏
-
168 收藏
-
300 收藏
-
305 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 485次学习