首页 > 文章 > php教程

PHP正则表达式教程与实例详解

时间：2025-09-25 11:53:17 461浏览收藏

来到golang学习网的大家，相信都是编程学习爱好者，希望在这里学习文章相关编程知识。下面本篇文章就来带大家聊聊《PHP正则表达式使用教程与实例解析》，介绍一下，希望对大家的知识积累有所帮助，助力实战开发！

PHP正则表达式基于PCRE库，通过preg_match、preg_replace等函数实现字符串查找、替换和分割。其核心是模式匹配，使用元字符（如.、\d、^、$）和修饰符（如i、m、s、u）构建规则，支持捕获组、非贪婪匹配及多字节处理。常见陷阱包括灾难性回溯、未转义特殊字符和忽略UTF-8编码问题，优化建议有避免嵌套量词、使用非捕获组(?:...)、锚定位置及预过滤数据，以提升性能与准确性。

PHP正则表达式怎么用_PHP正则表达式使用与实例讲解

PHP正则表达式的核心在于通过特定的模式匹配字符串，它提供了一系列以preg_开头的函数，如preg_match用于查找，preg_replace用于替换，让开发者能以强大且灵活的方式处理文本数据。这套机制基于PCRE（Perl Compatible Regular Expressions）库，所以语法上与Perl的正则表达式高度兼容，是处理复杂字符串逻辑的利器。

要说PHP正则表达式怎么用，其实就是围绕着几个核心函数展开。你得先写好一个“模式”（pattern），这模式就是一串描述你想要匹配的文本规则的字符串，然后把这个模式和你要处理的字符串作为参数传给preg_match、preg_replace之类的函数。举个最简单的例子，如果你想检查一个字符串里有没有数字，你的模式可能是/\d+/，然后用preg_match去匹配。我个人觉得，理解正则表达式最关键的就是理解这个“模式”的写法，它就像一种微型编程语言，用符号来表达复杂的文本结构。

PHP正则表达式的基石：常用函数与基础模式

说起PHP里用正则表达式，那几个preg_开头的函数是绕不开的。我刚开始接触的时候，觉得这些函数名有点绕，但用多了就发现它们功能明确，分工也很清晰。

preg_match(pattern, subject, [matches], [flags], [offset])：这个函数是用来执行一次匹配的。它会尝试在subject字符串中查找pattern。如果找到了，就返回1，没找到返回0。matches参数是个数组，如果传入了，它会存储所有匹配到的内容，包括完整的匹配和捕获组的内容。这在我们需要提取特定信息的时候非常有用。

preg_match_all(pattern, subject, matches, [flags], [offset])：跟preg_match类似，但它会找出所有非重叠的匹配项。matches数组的结构会根据flags参数有所不同，PREG_SET_ORDER会把每个完整匹配作为一个元素，里面再包含捕获组；而PREG_PATTERN_ORDER则会把所有捕获组1的匹配放在一个数组，所有捕获组2的匹配放在另一个数组。我个人更喜欢用PREG_SET_ORDER，觉得逻辑上更直观。

preg_replace(pattern, replacement, subject, [limit], [count])：这个函数用于替换匹配到的内容。它会在subject中查找pattern，然后把所有匹配到的部分替换成replacement字符串。replacement里可以使用反向引用（如$1、\1）来引用pattern中捕获组的内容，这让替换操作变得非常灵活。比如，把所有YYYY-MM-DD格式的日期改成DD/MM/YYYY。

preg_split(pattern, subject, [limit], [flags])：顾名思义，它是用来分割字符串的，但不是用固定的字符串作为分隔符，而是用正则表达式模式。这在需要根据多种复杂分隔符来拆分字符串时特别好用。

preg_grep(pattern, input)：这个函数则有点像数组过滤。它会遍历input数组中的每个元素，只返回那些匹配pattern的元素。

理解了这些函数，剩下的就是模式本身了。一个模式通常用斜杠/包裹起来，比如/hello/。斜杠后面可以跟一些修饰符，比如/hello/i表示不区分大小写匹配。

上面的例子展示了几个基本操作，但正则表达式的威力远不止于此。

PHP正则表达式中常用的元字符和修饰符有哪些？

要真正玩转正则表达式，就得深入了解那些奇奇怪怪的符号，也就是所谓的元字符（Metacharacters）和修饰符（Modifiers）。这些东西刚开始看会觉得眼花缭乱，但它们是构建复杂匹配模式的基石。

元字符： 这些符号在正则表达式中有特殊含义，而不是它们字面上的字符。

.：匹配除换行符以外的任何单个字符。这是最常用的通配符，但有时候也容易过度匹配。
\d：匹配任何数字字符（等价于[0-9]）。
\D：匹配任何非数字字符（等价于[^0-9]）。
\w：匹配任何单词字符（字母、数字或下划线，等价于[a-zA-Z0-9_]）。
\W：匹配任何非单词字符（等价于[^a-zA-Z0-9_]）。
\s：匹配任何空白字符（空格、制表符、换行符等）。
\S：匹配任何非空白字符。
^：匹配字符串的开头。
$：匹配字符串的结尾。
*：匹配前一个字符零次或多次。比如a*能匹配空字符串、a、aa等等。
+：匹配前一个字符一次或多次。a+至少匹配一个a。
?：匹配前一个字符零次或一次。同时它也可以用来使量词变成非贪婪模式（*?、+?、??）。
{n}：匹配前一个字符恰好n次。
{n,}：匹配前一个字符至少n次。
{n,m}：匹配前一个字符至少n次，但不超过m次。
[]：字符集。匹配方括号中的任何一个字符。比如[aeiou]匹配任何一个小写元音字母。
[^]：否定字符集。匹配不在方括号中的任何一个字符。[^0-9]匹配任何非数字字符。
|：或。匹配管道符左右的任何一个模式。cat|dog匹配cat或dog。
()：捕获组。将括号内的模式作为一个整体进行匹配，并且可以捕获匹配到的内容。也可以用来改变操作符的优先级。
\：转义字符。如果想匹配一个元字符本身，比如想匹配.而不是任何字符，你就得用\.。

修饰符（Flags）： 这些是放在正则表达式模式末尾的单个字母，用来改变匹配行为。

i (PCRE_CASELESS)：不区分大小写匹配。/test/i会匹配test、Test、TEST。
m (PCRE_MULTILINE)：多行模式。^和$会匹配每行的开头和结尾，而不仅仅是整个字符串的开头和结尾。
s (PCRE_DOTALL)：点号（.）匹配所有字符，包括换行符。如果没有s修饰符，.不匹配换行符。
U (PCRE_UNGREEDY)：非贪婪模式。默认情况下，量词（*、+、?、{}）是贪婪的，会尽可能多地匹配。U修饰符会让它们变成非贪婪，尽可能少地匹配。这在解析HTML/XML标签时特别有用，比如/<.*?>/。
u (PCRE_UTF8)：开启UTF-8模式。处理多字节字符（如中文）时非常重要，否则\w等可能会出现意想不到的结果。

我个人在使用时，i、m、s、U、u这几个是最常用的。尤其是在处理用户输入或者解析网页内容时，对大小写、多行、换行符以及贪婪模式的控制，直接决定了匹配结果的准确性。忘记u修饰符处理中文时，那简直是噩梦。

如何在PHP中实现字符串的查找、替换和分割操作？

在PHP中，字符串的查找、替换和分割是正则表达式最常见的应用场景。虽然PHP提供了strpos、str_replace、explode这些函数来处理简单的字符串操作，但一旦涉及到模式匹配，preg_系列函数就显得不可替代了。

查找（Find）：preg_match和preg_match_all是查找的主力。如果你只需要知道一个字符串中是否存在某个模式，或者只需要获取第一次匹配到的内容，preg_match就够了。

这是一个粗体的文本。
这是另一个粗体。";

// 查找第一个粗体标签内的内容
if (preg_match("/(.*?)<\/b>/", $html, $matches)) {
    echo "第一次匹配到的粗体内容: " . $matches[1] . "\n"; // $matches[0]是完整匹配，[1]是第一个捕获组
}
// 输出: 第一次匹配到的粗体内容: 粗体
?>

如果需要找到所有匹配项，那preg_match_all就是你的朋友。

这是一个粗体的文本。
这是另一个粗体。";

// 查找所有粗体标签内的内容
preg_match_all("/(.*?)<\/b>/", $html, $matches_all, PREG_SET_ORDER);
foreach ($matches_all as $match) {
    echo "找到粗体内容: " . $match[1] . "\n";
}
// 输出:
// 找到粗体内容: 粗体
// 找到粗体内容: 粗体
?>

这里PREG_SET_ORDER让$matches_all的每个元素都是一个完整的匹配数组，方便遍历。

替换（Replace）：preg_replace是替换操作的核心。它不仅能替换固定字符串，还能根据模式动态替换，甚至利用反向引用重新组织字符串。

在第二个例子中，$3/$2/$1就是反向引用，它引用了模式中第三、第二和第一个捕获组的内容。这种能力是str_replace无法比拟的。

分割（Split）：preg_split允许你用复杂的模式来分割字符串，而不仅仅是单一的字符或字符串。

 姓名:张三
    [1] => 年龄:30
    [2] => 性别:男
    [3] => 城市:北京
)
*/

$sentence = "Hello   world!  How are you?";
// 以一个或多个空格、感叹号分割，并保留分隔符
$words_with_delimiters = preg_split("/(\s+|!)/", $sentence, -1, PREG_SPLIT_DELIM_CAPTURE | PREG_SPLIT_NO_EMPTY);
print_r($words_with_delimiters);
/* 输出:
Array
(
    [0] => Hello
    [1] =>
    [2] => world
    [3] => !
    [4] =>
    [5] => How
    [6] =>
    [7] => are
    [8] =>
    [9] => you
)
*/
?>

PREG_SPLIT_DELIM_CAPTURE这个标志位特别有意思，它能让分隔符本身也作为结果数组的一部分被捕获进来。PREG_SPLIT_NO_EMPTY则会过滤掉空字符串。这种细粒度的控制在处理一些非标准格式数据时非常有用。

PHP正则表达式在使用时有哪些常见陷阱和性能优化建议？

正则表达式虽然强大，但它也是一把双刃剑。不恰当的使用不仅可能导致错误的结果，还可能引发严重的性能问题，甚至让你的服务器CPU飙升。我曾经就被一个看似简单的正则搞得焦头烂额，才意识到这些陷阱有多深。

常见陷阱：

灾难性回溯（Catastrophic Backtracking）： 这是最致命的性能问题之一。当你的正则表达式包含嵌套的量词，并且这些量词可以匹配相同的内容时，就可能发生。例如，^(a+)+b$匹配aaaaab，在匹配失败时（比如aaaaac），引擎会尝试所有可能的a组合，导致指数级的回溯。
- 例子： /^(a+)+b$/ 匹配 aaaaac 就会很慢。
- 避免： 尽量避免嵌套的、重复的量词，尤其是当它们能够匹配相同内容时。可以使用原子组(?>...)来防止回溯。
贪婪与非贪婪模式的误解： 默认情况下，量词（*, +, {n,m}）是贪婪的，会尽可能多地匹配。但有时候你需要的是非贪婪匹配，比如解析HTML标签时，/<.*>/会匹配从第一个<到最后一个>的所有内容，而不是单个标签。
- 解决： 在量词后面加上?使其变为非贪婪，例如.*?。或者使用U修饰符使整个模式非贪婪。
忘记转义特殊字符： 如果你的模式中需要匹配.、*、+、?、[、]、(、)、{、}、^、$、|、\这些元字符本身，而不是它们的特殊含义，你必须用\进行转义。
- 例子： 匹配www.example.com，模式应该是/\www\.example\.com/，而不是/www.example.com/。
编码问题（UTF-8）： 在处理包含多字节字符（如中文）的字符串时，如果忘记添加u修饰符（PCRE_UTF8），\w、\s、.等元字符可能会产生错误的结果，或者匹配失败。
- 解决： 始终在模式末尾加上u修饰符，例如preg_match('/[\x{4e00}-\x{9fa5}]+/u', $text)。
不检查错误： preg_系列函数在匹配失败或模式无效时，会返回false或0，并可能发出警告。但更重要的是，preg_last_error()函数可以提供更详细的错误信息，这对于调试非常关键。
- 建议： 在调用preg_函数后，总要检查preg_last_error()，尤其是在开发阶段。

性能优化建议：

模式越简单越好： 复杂的模式意味着更多的回溯和计算。如果能用简单的字符串函数（strpos, str_replace, explode）解决，就不要用正则表达式。
避免不必要的捕获组： 捕获组(...)会增加处理开销，因为引擎需要存储匹配到的内容。如果只是想把一部分模式作为一个整体，但不需要捕获其内容，可以使用非捕获组(?:...)。
- 例子： (?:foo|bar) 比 (foo|bar) 效率略高。
使用更具体的字符类： 尽可能使用\d、\w、\s或具体的字符集[a-zA-Z]，而不是宽泛的.。.需要尝试匹配更多可能性，效率较低。
锚定模式： 如果你知道匹配必须发生在字符串的开头或结尾，使用^和$来锚定模式。这能让引擎更快地确定匹配位置，避免不必要的扫描。
减少回溯： 这是最难但最重要的优化点。除了避免灾难性回溯的模式外，还可以使用原子组(?>...)来阻止引擎在某些部分进行回溯。
预过滤： 对于大型字符串，如果正则表达式匹配的模式只占很小一部分，可以先用strpos或strstr快速检查是否存在可能匹配的子字符串。如果不存在，就完全不需要运行正则表达式。

a+)b$/';
$subject = str_repeat('a', 25) . 'c';
if (preg_match($pattern_optimized, $subject)) {
    echo "匹配成功\n";
} else {
    echo "匹配失败 (优化后的模式)\n"; // 匹配失败，但不会回溯很久
}

// 非捕获组示例
$text = "apple banana cherry";
preg_match_all("/(?:apple|banana)/", $text, $matches);
print_r($matches); // 只需要匹配，不需要捕获组的额外开销

// UTF

到这里，我们也就讲完了《PHP正则表达式教程与实例详解》的内容了。个人认为，基础知识的学习和巩固，是为了更好的将其运用到项目中，欢迎关注golang学习网公众号，带你了解更多关于模式匹配,修饰符,PHP正则表达式,元字符,preg_函数的知识点！

模式匹配修饰符 PHP正则表达式元字符 preg_函数

相关阅读
更多>

文章 · php教程   |  1个月前  |

宝塔配置Ruby环境：RVM+Nginx反代教程

501 收藏

文章 · php教程   |  1个月前  |

unset函数作用范围详解

501 收藏

文章 · php教程   |  1个月前  |   Xdebug

VS Code配置Xdebug教程：PHP调试技巧全解析

501 收藏

文章 · php教程   |  2个月前  |   phpenv

PHPEnv安装PhpMyAdmin教程详解

501 收藏

文章 · php教程   |  2个月前  |

TelegramBotWebApp数据验证技巧

501 收藏

最新阅读
更多>

文章 · php教程   |  19小时前  |   nginx · php-fpm · php教程 · 502错误 · 故障复盘 · 慢日志 · Nginx php-fpm 性能排查 PHP教程 502 Bad Gateway pm.max_children 慢日志

PHP-FPM 子进程打满导致 502 怎么排查：从 Nginx 错误日志到 pm.max_children 调整

407 收藏

文章 · php教程   |  1天前  |   日志 · HTTP · 超时控制 · php教程 · 接口监控 · 请求超时 stream_context_create PHP教程 PHP HTTP请求接口探测器

PHP HTTP 超时探测器怎么写：状态码、耗时和日志验收

289 收藏

文章 · php教程   |  1天前  |   文件上传 · 后端开发 · php教程 · 安全校验 · move_uploaded_file $_FILES finfo_file PHP上传文件文件安全校验

PHP 上传文件怎么安全校验：$_FILES、finfo 和 move_uploaded_file 实战

409 收藏

文章 · php教程   |  1天前  |   [] · []

PHP Session 高并发为什么会卡住：从文件锁迁到 Redis 会话存储

164 收藏

文章 · php教程   |  2天前  |   文件上传 · php教程 · $_FILES · 上传安全 · MIME · PHP文件上传 move_uploaded_file $_FILES 文件校验 MIME PHP教程

PHP 文件上传怎么做才安全：从 $_FILES 校验到落盘和清理

242 收藏

文章 · php教程   |  1星期前  |   PHP · 错误提示 · 表单校验 · 用户体验 · 服务端验证 · 用户体验表单校验服务端验证 PHP教程错误回填字段错误旧输入

PHP 表单校验错误怎么回填：保留输入、定位字段和友好提示

134 收藏

文章 · php教程   |  1星期前  |   Redis · 迁移 · session · php教程 · 登录态 · redis session phpredis PHP教程 session.save_handler 分布式登录回归检查

PHP Session 迁移到 Redis：从本机文件到集中存储的回归检查清单

145 收藏

文章 · php教程   |  1星期前  |   参数校验 · PHP · DTO · 接口设计 · php 参数校验统一错误响应 Request DTO 接口迁移

PHP 老接口迁移变更单：从散落 $_POST 到 Request DTO 与统一错误响应

199 收藏

文章 · php教程   |  1星期前  |   PHP · PRG · 表单提交 · 重复提交 · 用户体验 · 用户体验重复提交 PHP表单 PRG模式闪存消息

PHP 表单提交后刷新重复提交怎么办：PRG 模式和闪存提示这样做

232 收藏

文章 · php教程   |  1星期前  |   PHP · php-fpm · 运维排查 · 慢请求 · 运维 slowlog php-fpm 进程池慢请求

PHP-FPM 慢请求报警运行手册：从 slowlog 到进程池参数调整

336 收藏

文章 · php教程   |  1星期前  |   Redis · 任务队列 · php教程 · 接口优化 · 后台任务 · 异步处理 PHP队列后台任务 Redis队列接口优化 Job Worker

PHP 同步接口队列化改造趋势：从请求内处理到后台 Job Worker

178 收藏

文章 · php教程   |  1星期前  |   内存优化 · php教程 · 后端排查 · CSV导出 · php 生成器内存耗尽 fputcsv CSV导出流式写入

PHP 导出大数据内存耗尽排查：从一次性数组到流式写 CSV

471 收藏

课程推荐
更多>

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

立即学习 543次学习

GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

立即学习 516次学习

简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

立即学习 500次学习

JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

立即学习 487次学习

从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

立即学习 485次学习