首页 > 文章 > php教程

PHP文本过滤敏感词技巧分享

时间：2026-03-02 12:00:48 276浏览收藏

本文深入剖析了PHP中安全高效过滤敏感词的关键实践，指出简单使用explode分段极易因中英文混排、多空格或标点符号导致切分错误，进而引发跨段漏检；推荐采用preg_split配合PREG_SPLIT_DELIM_CAPTURE精准保留分隔符，结合mb_stripos（严格指定UTF-8编码）确保中文及emoji场景下的准确匹配，并强调必须预处理敏感词编码、转义正则元字符；针对“国家”与“机密”被断开在相邻段落的典型风险，提出末尾/开头拼接检查或全文预扫描定位等方案；最后直击性能瓶颈，力推AC自动机优化复杂度，或退而求其次采用首字哈希分组，彻底避开O(n×m)循环陷阱——每一步都踩在真实业务上线前最容易翻车的隐性坑上。

php分割文本过滤敏感词_php分割后逐段过滤敏感词【技巧】

用 `preg_split` 分段时保留分隔符更安全

直接用 explode 切文本，遇到连续换行、中英文混排或带空格的分隔符（比如 "\n\n" 或 "。"）容易漏切或错切，导致敏感词跨段残留。推荐用 preg_split 并开启 PREG_SPLIT_DELIM_CAPTURE 标志，把分隔符也捕获进结果数组，后续处理时能准确还原边界。

例如按中文句号、换行、两个及以上空格切分：preg_split('/([。！？；\n]|\s{2,})/u', $text, -1, PREG_SPLIT_DELIM_CAPTURE | PREG_SPLIT_NO_EMPTY)
这样得到的数组是 ['内容1', '。', '内容2', '\n\n', '内容3']，过滤时可跳过分隔符项，只扫字符串段
不加 PREG_SPLIT_DELIM_CAPTURE 就丢掉了标点，拼回去时可能把“机密。”和“文件”连成“机密。文件”，绕过“机密文件”关键词检测

`mb_stripos` 比 `stripos` 更可靠地匹配中文敏感词

PHP 默认的 stripos 按字节匹配，遇到 UTF-8 中文会截断字符，导致假阴性（该命中没命中）。尤其在分段后文本长度不一、含 emoji 或生僻字时风险更高。

必须用 mb_stripos($segment, $word, 0, 'UTF-8')，显式指定编码
敏感词列表本身也要确保是 UTF-8 编码，避免从数据库或配置文件读取时乱码（常见于 MySQL 连接未设 SET NAMES utf8mb4）
若敏感词含正则元字符（如 "+"、"."），别直接丢进 mb_stripos —— 它不支持通配，得先 preg_quote($word, '/') 再进 preg_match