首页 > 文章 > 前端

Python爬虫抓取HTML方法详解

时间：2026-04-06 22:00:26 448浏览收藏

本文深入解析了Python爬虫抓取HTML时最常遇到的四大痛点：响应内容为空或乱码（根源在于编码未正确设置，推荐优先使用r.apparent_encoding自动识别并手动覆盖）、BeautifulSoup无法定位元素（实因目标内容由JavaScript动态渲染，源码中根本不存在）、触发反爬机制（需合理构造headers、控制请求频率），以及中文URL导致请求失败（必须通过quote进行URL编码）；每一步都给出直击要害的原理说明与可立即上手的实操方案，助你从“爬不到”快速进阶到“稳准快”。

python爬虫抓取html实现方法_python爬虫怎么抓取html【详解】

requests.get() 返回空内容或乱码

多数人卡在这一步：明明 URL 能在浏览器打开，requests.get() 却拿不到正文，或者返回一堆问号、方块。核心原因是没处理响应编码——requests 默认用 ISO-8859-1 解码，而网页实际是 UTF-8 或 GBK。

实操建议：

永远手动设 r.encoding，优先试 r.encoding = r.apparent_encoding（基于内容自动推测，比 r.encoding 更靠谱）
如果 apparent_encoding 错了（比如识别成 Windows-1254），就查网页，你写 soup.find('div', class_='itemList') 就会失败——class 属性值必须完全匹配，且 class_ 参数不支持驼峰转换
避免链式调用 soup.find('a').get('href')：前一步返回 None 就直接报 AttributeError，改成两步，加 if tag: 判断

反爬拦截：requests 报 403 或返回验证码页面

服务器一看 User-Agent 是 python-requests/2.31.0，立刻拉黑。这不是“要加 headers”，而是要加对、加全、且模拟真实访问节奏。

实操建议：

至少带 User-Agent 和 Accept，示例：{'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36', 'Accept': 'text/html,application/xhtml+xml'}
别一股脑加十多个 headers——某些站点会校验 Sec-Fetch-* 等现代字段，填错反而露馅；宁可少，不要假
加 time.sleep(1) 控制频率，但别机械等固定秒数；连续请求间隔差异太小（比如全是 1.0s）也会被识别为脚本
如果返回的是验证码 HTML（含），说明已进入强反爬环节，requests 基本退场，别硬刚

中文路径或参数导致 URL 编码错误

拼接 URL 时直接写 f"https://example.com/搜索?q={keyword}"，结果发出去变成 %E6%90%9C%E7%B4%A2 乱码，服务端收不到预期参数。

实操建议：

所有动态拼入 URL 的非 ASCII 字符（中文、emoji、空格等），必须用 urllib.parse.quote() 编码，例如 quote(keyword, safe='')
查询参数统一走 params 参数，让 requests 自动处理：requests.get(url, params={'q': keyword}) —— 它内部会调用 urlencode，比手拼安全得多
路径部分（URL 中 / 后面的段）不能靠 params，必须手动 quote，且注意 safe='/'（保留斜杠不编码）

真正难的从来不是“怎么拿到 HTML”，而是判断“这个 HTML 是不是我要的那个”。每次请求后，先看 status_code，再看 content 长度和开头几十字，最后才进解析——跳过这三步，后面写的全是空中楼阁。

终于介绍完啦！小伙伴们，这篇关于《Python爬虫抓取HTML方法详解》的介绍应该让你收获多多了吧！欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布文章相关知识，快来关注吧！

资料下载

编程学习资料下载

精选编程（Golang、Python、Java、C++、JavaScript等）教程、电子书与示例源码，一键打包本地下载学习。

立即下载