Beautiful Soup抓取维基表格教程
时间:2026-04-06 12:39:23
198浏览
收藏
本文直击 Beautiful Soup 抓取维基百科表格时频繁返回 None 的核心痛点,一针见血地指出:浏览器中看到的带 jquery-tablesorter 等动态 class 的表格,并不存在于服务器返回的原始 HTML 中——因为这些类由 JavaScript 运行后注入,而 BeautifulSoup 只解析静态源码;文章不仅剖析原理、提供可直接运行的修正代码,还给出实用调试技巧(如检查真实 class、打印 prettify 片段)、关键注意事项(User-Agent 设置、异常防护)和进阶建议(优先用 id 或 caption 辅助定位),帮你彻底避开“所见非所得”的陷阱,写出真正稳健可靠的网页抓取代码。

本文详解为何用 Beautiful Soup 查找维基百科表格时返回 None,并指出关键原因:JavaScript 动态添加的 class(如 jquery-tablesorter)不会出现在原始 HTML 中,需从查找条件中剔除;同时提供可运行代码、调试建议与最佳实践。
本文详解为何用 Beautiful Soup 查找维基百科表格时返回 None,并指出关键原因:JavaScript 动态添加的 class(如 jquery-tablesorter)不会出现在原始 HTML 中,需从查找条件中剔除;同时提供可运行代码、调试建议与最佳实践。
在使用 Beautiful Soup 进行网页数据抓取时,一个常见却易被忽视的陷阱是——误将浏览器开发者工具中看到的“渲染后 DOM”当作服务器返回的原始 HTML。维基百科页面广泛使用 JavaScript(例如 tablesorter 插件)动态增强表格功能,会在加载后向
元素注入额外的 class(如 jquery-tablesorter)。但 Beautiful Soup 解析的是服务器直发的静态 HTML(即通过 Ctrl+U 查看的源码),其中不包含任何 JS 运行后添加的 class 或属性。因此,若在 soup.find() 中保留 jquery-tablesorter,匹配必然失败,返回 None。要正确定位目标表格,应仅依赖服务端实际存在的 class。以《The Beatles 录制歌曲列表》页面为例,真实 HTML 中该表格的 class 属性值为:
<table class="wikitable sortable plainrowheaders">
而非浏览器渲染后显示的:
<table class="wikitable sortable plainrowheaders jquery-tablesorter">
✅ 正确做法是精简 class 匹配条件,移除所有 JS 注入类:
from urllib.request import urlopen
from bs4 import BeautifulSoup
url = "https://en.wikipedia.org/wiki/List_of_songs_recorded_by_the_Beatles"
html = urlopen(url)
soup = BeautifulSoup(html, "html.parser")
# ✅ 仅使用服务端存在的 class
table = soup.find("table", {"class": "wikitable sortable plainrowheaders"})
print(table is not None) # 输出 True
print(table.name) # 输出 'table'? 调试建议:
- 始终用 urlopen(url).read().decode('utf-8') 或 soup.prettify()[:1000] 检查实际解析的 HTML 片段;
- 使用 soup.find_all("table") 列出所有表格,再逐个检查 table.get('class'),确认目标 class 的准确拼写;
- 避免过度依赖复杂 class 组合,优先考虑唯一性高、稳定性强的属性(如 id,或组合 class + caption 文本)。
⚠️ 注意事项:
- 维基百科可能对高频请求返回 403 或限流,建议添加 User-Agent 头(生产环境必需);
- 表格结构可能随页面更新变化,推荐用 try/except 封装查找逻辑并加入日志;
- 若需处理多页或大量表格,建议结合 pandas.read_html()(底层仍用 BeautifulSoup)快速提取,再做清洗。
掌握“所见非所得”的 HTML 解析本质,是稳健 Web Scraping 的第一课。始终以原始 HTML 为唯一事实依据,才能写出可靠、可维护的爬虫代码。
以上就是本文的全部内容了,是否有顺利帮助你解决问题?若是能给你带来学习上的帮助,请大家多多支持golang学习网!更多关于文章的相关知识,也可关注golang学习网公众号。
您即将跳转至第三方网站,请注意保护好个人信息和财产安全!
继续访问
-
-
编程学习资料下载
-
精选 编程(Golang、Python、Java、C++、JavaScript等) 教程、电子书与示例源码,一键打包本地下载学习。
-
立即下载
-
501
收藏
-
501
收藏
-
501
收藏
-
501
收藏
-
501
收藏
-
232
收藏
-
402
收藏
-
492
收藏
-
474
收藏
-
155
收藏
-
414
收藏
-
283
收藏
-
307
收藏
-
246
收藏
-
224
收藏
-
292
收藏
-
316
收藏
-
-
前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
-
立即学习
543次学习
-
-
GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
-
立即学习
516次学习
-
-
简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
-
立即学习
500次学习
-
-
JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
-
立即学习
487次学习
-
-
从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
-
立即学习
485次学习