首页 > Golang > Go教程

Golang敏感词过滤实现技巧与方法

时间：2026-04-29 14:54:47 389浏览收藏

本文深入剖析了Go语言中敏感词过滤的实战难点与关键细节，指出真正挑战不在于基础匹配功能的实现，而在于确保高并发下的稳定性、杜绝漏判与误杀——如DFA前缀树中isEnd赋值位置错误导致“王子”被误拦、未支持多匹配回溯而漏掉“王八羔子”等长词、children map未初始化引发线上panic、以及中文替换因字节与字符长度混淆造成星号数量失准等问题；文章强调必须用rune遍历、区分isEnd与isPrefix语义、手动实现回溯逻辑、封装安全的map访问，并以真实字符长度（而非字节数）处理中文替换，才能构建出可靠、健壮、可上线的敏感词过滤系统。

golang如何实现搜索敏感词过滤_golang搜索敏感词过滤实现思路

Go 里做敏感词搜索过滤，核心不是“能不能搜到”，而是“会不会漏、会不会错、并发下稳不稳”。DFA（前缀树）是当前最实用的选择，但直接照搬示例代码很容易在线上出问题。

构建 Trie 树时 `isEnd` 赋值位置错误导致误杀

常见现象是：“王”“王八”“王八蛋”全被标为敏感词结尾，结果用户发“王子”也被拦截。根本原因是把 node.isEnd = true 写在了遍历每个字符的循环内部。

正确做法：只在完整敏感词插入完毕后，对最后一个节点设 node.isEnd = true
如果要支持“前缀敏感”（比如“王八”和“王八蛋”都算命中），必须新增字段如 isPrefix，不能复用 isEnd
所有字符串遍历统一用 for _, r := range word，别用 for i := range word —— 后者遍历的是字节索引，中文会崩

匹配时只返回首个命中词，漏掉重叠/长词

输入“王八羔子”，只返回“王八”，不返回“王八羔子”，这是典型「单次匹配即退出」导致的。DFA 本身不自动支持多模式匹配，得手动处理回溯逻辑。

关键点：匹配到 node.isEnd == true 时，不能 break 或直接返回，要记录当前位置，然后从 start+1 重新进树
简单场景可用 strings.ReplaceAllFunc 配合 contains 判断，但性能差，仅适合低频调用
高并发服务务必手写双指针逻辑：start 固定起点，end 推进找最长匹配；每次匹配后 start++ 继续

`node.children[char]` panic：nil map 写入

本地小数据测不出，压测时突然 panic：assignment to entry in nil map，堆栈指向 AddChild 或匹配循环里的 node.children[char]。

根本原因：声明了 children map[rune]*Node，但没初始化就直接写 node.children[char] = xxx
安全写法：每次访问前加判断 if node.children == nil { node.children = make(map[rune]*Node) }
更推荐封装方法：func (n *Node) getChild(r rune) *Node 和 func (n *Node) setChild(r rune, child *Node)，内部统一判空