首页 > 文章 > python教程

Pandas读取网页表格，提取所有table标签方法

时间：2026-04-01 08:28:27 129浏览收藏

本文深入解析了pandas中`pd.read_html()`函数的核心定位与常见误区：它并非网络爬虫，仅负责解析已获取的HTML字符串中的``标签，不发起请求、不执行JavaScript、不处理登录或反爬机制；因此正确用法必须配合`requests`等工具先获取真实、完整且编码正确的网页源码，再传入解析，并针对JS渲染、响应状态异常、表格伪装、多表混淆、解析器兼容性及数据清洗等典型问题提供实用解决方案，强调“能否提取到表格”的关键往往不在`read_html()`本身，而在于你手中的HTML是否真正包含目标表格及其原始结构。
直接说结论：pd.read_html() 不是爬虫，它只解析 HTML 字符串里的
，不发请求、不执行 JS、不处理登录或反爬——想用它“爬网页”，得先自己把 HTML 拿回来。
为什么 pd.read_html() 会报错或返回空列表
常见现象：调用后返回 []，或者抛出 ValueError: No tables found。根本原因不是函数坏了，而是它压根没看到

标签。
你传的是 URL 字符串（比如 "https://example.com"），但 pandas 1.4+ 默认已禁用 URL 自动下载（出于安全和明确性考虑）

网页实际用 JS 渲染表格（pd.read_html() 只看静态 HTML 源码，不跑 JS）

服务器返回了 403/406，但你没检查响应内容，直接喂给了 read_html()

HTML 源码里确实没

，可能是用
+ CSS 模拟的“假表格”
怎么正确配合 requests 获取网页 HTML 再交给 pd.read_html()

这是最常用、可控性最强的做法。requests 负责拿源码，pd.read_html() 负责解析。

必须显式用 requests.get() 获取响应，检查 r.status_code == 200 和 r.text 是否含
中文网页注意设置 r.encoding = r.apparent_encoding，否则表格文字可能乱码
传给 pd.read_html() 的必须是字符串（r.text），不是 Response 对象
可加参数缩小匹配范围，比如 match="订单" 只找含“订单”的表格，避免误取广告位里的

示例：
import pandas as pd
import requests

r = requests.get("https://httpbin.org/html")
r.encoding = r.apparent_encoding
tables = pd.read_html(r.text, match="table", header=0)
pd.read_html() 返回多个 DataFrame，怎么选对的那个
网页常有多个

（导航栏、页脚、数据表混在一起），pd.read_html() 默认全返回一个 list，你需要手动挑。
用 len(tables) 看有几个，再逐个打印 tables[0].head() 观察结构

优先看 shape：真实数据表通常行数 > 5，列数 > 2；空表或单行表大概率是装饰用

用 attrs={"class": "data-table"} 或 attrs={"id": "main-table"} 锁定特定

，比靠顺序更可靠
如果表格有合并单元格（rowspan/colspan），pandas 可能解析错行，这时要加 flavor="html5lib"（需装 html5lib）
容易被忽略的兼容性和边界情况
不是所有 HTML 表格都能“开箱即用”。有些坑只有真遇到才记得住。
pd.read_html() 默认用 lxml 解析器，但某些畸形 HTML（如未闭合标签、嵌套错乱）会崩，换 flavor="html5lib" 更容错，但慢一点

表格第一行是标题？加 header=0；没有标题？加 header=None，否则 pandas 会强行把第一行当列名

数字带逗号（如 "1,234"）或货币符号（"¥100"），默认转成 object 类型，后续计算前得用 str.replace() 清洗

如果目标表格在 iframe 里，requests 拿到的主页面 HTML 里没有它——得单独请求 iframe 的 src 地址

真正卡住的地方，往往不是 read_html() 本身，而是你拿到的 HTML 里到底有没有那个 table，以及它是不是你以为的样子。
文中关于的知识介绍，希望对你的学习有所帮助！若是受益匪浅，那就动动鼠标收藏这篇《Pandas读取网页表格，提取所有table标签方法》文章吧，也可关注golang学习网公众号了解相关技术文章。