首页 > 文章 > python教程

Python爬虫破解JS混淆方法解析

时间：2026-04-15 19:03:42 497浏览收藏

本文深入剖析了Python爬虫应对JavaScript混淆的实战策略，指出硬解析混淆JS风险极高且易失效，强烈推荐优先使用Playwright或Selenium启动真实浏览器执行JS并提取渲染后DOM；对于必须正则提取的场景，系统讲解了如何预处理注释、零宽字符与多行干扰，精准识别并还原String.fromCharCode、数组拼接等常见字符串构造模式，同时提醒警惕localStorage、Math.random等运行时依赖带来的执行失败陷阱，并给出注入初始化脚本、善用浏览器调试工具等高效绕过方案——归根结底，混淆不是密码学难题，而是工程陷阱，让浏览器做它最擅长的事，才是稳定可靠的破局之道。

Python爬虫怎么处理JavaScript混淆_利用正则表达式或逆向工具解析

JavaScript 混淆后，`eval` 和 `document.write` 无法直接执行怎么办

Python 的 requests 拿到的 HTML 里如果嵌了混淆 JS（比如大量 eval(unescape(...)) 或自调用函数），用 BeautifulSoup 解析不到真实内容——因为这些逻辑根本没在服务端渲染，而是靠浏览器运行 JS 后才生成 DOM。

硬解析 eval 字符串风险极高：混淆层可能含动态 key、时间戳校验、或依赖 window / document 等宿主对象，纯 Python 正则或 exec 很容易崩或解错。

优先用 playwright 或 selenium 启动真实 Chromium，等 JS 执行完再取 page.content() 或 page.inner_html("body")
若必须用正则提取，只针对固定模式：比如匹配 eval$unescape\("([^"]+)"$\) 后对引号内做 urllib.parse.unquote，但要先确认该字符串不包含嵌套 %uXXXX 或 base64 变体
遇到 document.write 调用，别试图模拟写入逻辑——它常依赖当前 DOM 状态，直接上浏览器更稳

混淆字符串里有 `String.fromCharCode` 或数组拼接，怎么还原

这类混淆不加密，只是把字符拆成数字或数组再拼，看似难读，实际可批量还原。关键是识别出「构造字符串」的模式，而不是逐个 case 写正则。

常见结构：String.fromCharCode(104, 101, 108, 108, 111) 或 ["h","e","l","l","o"].join("")，甚至混用：[72,101,108,108,111].map(String.fromCharCode).join("")。

用 re.findall(r'String\.fromCharCode$(\d+(?:,\s*\d+)*)$', js_text) 提取数字组，再用 chr() 转换
对数组拼接，优先匹配 r'\[([^\]]+)\]\.map$String\.fromCharCode$\.join$""$'，提取内容后按逗号分割、去空格、转 int 再 chr
注意：有些混淆会插干扰项，比如 String.fromCharCode(0x68,0x65,...)，正则需兼容十六进制，用 r'0x[0-9a-fA-F]+' 替换为十进制再处理

逆向时发现 JS 依赖 `localStorage` 或 `Math.random` 初始化，本地执行就报错

混淆代码常带运行时依赖，比如从 localStorage.getItem("token") 读密钥，或用 Math.random() 生成 salt 参与加密。直接丢进 Python 的 exec 或 py_mini_racer 会因环境缺失挂掉。

这不是“解析不出来”，而是“跑不起来”。强行 mock 容易漏关键逻辑，尤其当随机数被用于控制流分支时。

用 playwright 启动时加 page.add_init_script 注入预设值，比如覆盖 Math.random = () => 0.123，或提前写入 localStorage
避免用 js2py：它对现代 JS（如箭头函数、可选链）支持弱，且不模拟 DOM/BOM，mock 成本比启浏览器还高
如果只是想脱混淆看逻辑，可用浏览器开发者工具的 Debugger 面板，在混淆函数入口下断点，用 console.log 把解密后的字符串打出来，再复制回 Python 处理

正则提取混淆内容时，为什么总漏掉最后一段或匹配错行

混淆 JS 常跨多行、含注释、或用模板字符串（`...${x}...`），导致单行正则失效。更麻烦的是，混淆器会故意插入不可见字符（如 \u200b 零宽空格）或用字符串拼接绕过静态检测。

用 re.DOTALL 标志让 . 匹配换行符，再配合非贪婪匹配，比如 re.search(r'eval$unescape\("([^"]*)"$\)', js_text, re.DOTALL)
先用 re.sub(r'/\*.*?\*/|//.*$', '', js_text, flags=re.DOTALL|re.MULTILINE) 清除注释，减少干扰
遇到零宽字符，用 re.sub(r'[\u200b-\u200f\u202a-\u202e]', '', js_text) 预清洗，否则正则边界会偏移
永远检查 match.group(1) 是否为空——混淆器有时会让第一组是空字符串，实际内容在第二组，得看具体结构再调正则

混淆不是密码学难题，但它是工程陷阱：每层都轻量，合起来就让人反复怀疑正则写错了。最省事的方式，往往是让浏览器干它该干的活。

终于介绍完啦！小伙伴们，这篇关于《Python爬虫破解JS混淆方法解析》的介绍应该让你收获多多了吧！欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布文章相关知识，快来关注吧！

Python爬虫破解JS混淆方法解析

JavaScript 混淆后，eval 和 document.write 无法直接执行怎么办

混淆字符串里有 String.fromCharCode 或数组拼接，怎么还原

逆向时发现 JS 依赖 localStorage 或 Math.random 初始化，本地执行就报错

正则提取混淆内容时，为什么总漏掉最后一段或匹配错行

JavaScript 混淆后，`eval` 和 `document.write` 无法直接执行怎么办

混淆字符串里有 `String.fromCharCode` 或数组拼接，怎么还原

逆向时发现 JS 依赖 `localStorage` 或 `Math.random` 初始化，本地执行就报错