首页 > 文章 > php教程

PHP分割文本逐段过滤敏感词技巧

时间：2026-05-25 22:34:15 278浏览收藏

本文深入剖析了PHP中安全高效过滤敏感词的关键实践，强调不能简单依赖explode分段或stripos匹配，而应采用preg_split配合PREG_SPLIT_DELIM_CAPTURE保留分隔符以防止边界错位、使用mb_stripos确保UTF-8中文精准匹配，并通过预扫描、滑动窗口或AC自动机等策略彻底规避跨段漏检与性能瓶颈——每一个看似微小的处理细节，都可能成为绕过过滤的致命缺口，真正可靠的敏感词系统，始于对编码、边界和算法复杂度的敬畏。

php分割文本过滤敏感词_php分割后逐段过滤敏感词【技巧】

用 `preg_split` 分段时保留分隔符更安全

直接用 explode 切文本，遇到连续换行、中英文混排或带空格的分隔符（比如 "\n\n" 或 "。"）容易漏切或错切，导致敏感词跨段残留。推荐用 preg_split 并开启 PREG_SPLIT_DELIM_CAPTURE 标志，把分隔符也捕获进结果数组，后续处理时能准确还原边界。

例如按中文句号、换行、两个及以上空格切分：preg_split('/([。！？；\n]|\s{2,})/u', $text, -1, PREG_SPLIT_DELIM_CAPTURE | PREG_SPLIT_NO_EMPTY)
这样得到的数组是 ['内容1', '。', '内容2', '\n\n', '内容3']，过滤时可跳过分隔符项，只扫字符串段
不加 PREG_SPLIT_DELIM_CAPTURE 就丢掉了标点，拼回去时可能把“机密。”和“文件”连成“机密。文件”，绕过“机密文件”关键词检测

`mb_stripos` 比 `stripos` 更可靠地匹配中文敏感词

PHP 默认的 stripos 按字节匹配，遇到 UTF-8 中文会截断字符，导致假阴性（该命中没命中）。尤其在分段后文本长度不一、含 emoji 或生僻字时风险更高。

必须用 mb_stripos($segment, $word, 0, 'UTF-8')，显式指定编码
敏感词列表本身也要确保是 UTF-8 编码，避免从数据库或配置文件读取时乱码（常见于 MySQL 连接未设 SET NAMES utf8mb4）
若敏感词含正则元字符（如 "+"、"."），别直接丢进 mb_stripos —— 它不支持通配，得先 preg_quote($word, '/') 再进 preg_match