登录
首页 >  文章 >  python教程

HTML表格转DataFrame实用教程

时间:2025-10-08 10:54:34 399浏览 收藏

从现在开始,我们要努力学习啦!今天我给大家带来《HTML表格转DataFrame方法解析》,感兴趣的朋友请继续看下去吧!下文中的内容我们主要会涉及到等等知识点,如果在阅读本文过程中有遇到不清楚的地方,欢迎留言呀!我们一起讨论,一起学习!

从HTML表格中提取数据并转换为DataFrame

本文档旨在提供一个清晰、简洁的教程,指导读者如何使用Beautiful Soup库解析具有固定结构的HTML表格,并将提取的数据转换为Pandas DataFrame。通过示例代码和详细解释,读者将学会如何有效地从HTML中提取特定数据,并将其组织成易于分析的表格形式。

使用Beautiful Soup解析HTML表格并转换为DataFrame

在数据处理和分析中,经常需要从网页中提取数据。HTML表格是一种常见的数据呈现方式。本教程将演示如何使用Python的Beautiful Soup库解析HTML表格,并将其转换为Pandas DataFrame,方便后续的数据处理。

准备工作

首先,确保已经安装了必要的库:

pip install beautifulsoup4 pandas lxml
  • beautifulsoup4: 用于解析HTML和XML文档。
  • pandas: 用于数据分析,提供DataFrame数据结构。
  • lxml: 一个高性能的XML和HTML解析器,Beautiful Soup可以使用它来提高解析速度。

示例HTML

假设我们有以下HTML代码,表示一个包含产品信息的表格:

html = '''
<table align="center">
    <tr>
        <th>Name</th>
        <td>NAME A</td>
        <th>Status</th>
        <td class="IN PROGRESS">IN PROGRESS</td>
    </tr>
    <tr>
        <th>Category</th>
        <td COLSPAN="3">CATEGORY A</td>
    </tr>
    <tr>
        <th>Creation date</th>
        <td>13/01/23 23:00</td>
        <th>End date</th>
        <td></td>
    </tr>
</table>
'''

解析HTML并提取数据

以下代码演示了如何使用Beautiful Soup解析HTML,提取表格中的数据,并将其转换为DataFrame:

from bs4 import BeautifulSoup
import pandas as pd

html = '''
<table align="center">
    <tr>
        <th>Name</th>
        <td>NAME A</td>
        <th>Status</th>
        <td class="IN PROGRESS">IN PROGRESS</td>
    </tr>
    <tr>
        <th>Category</th>
        <td COLSPAN="3">CATEGORY A</td>
    </tr>
    <tr>
        <th>Creation date</th>
        <td>13/01/23 23:00</td>
        <th>End date</th>
        <td></td>
    </tr>
</table>
'''

soup = BeautifulSoup(html, 'lxml')

data = [{e.find_previous_sibling('th').text:e.text for e in soup.select('table td')}]

df = pd.DataFrame(data)

print(df)

这段代码的执行流程如下:

  1. 导入库: 导入BeautifulSoup和pandas库。
  2. 创建Beautiful Soup对象: 使用BeautifulSoup(html, 'lxml')创建一个Beautiful Soup对象,html是HTML代码,lxml是解析器。
  3. 选择标签: 使用soup.select('table td')选择表格中所有的标签。
  4. 提取数据: 遍历所有的标签,对于每个标签,找到它的前一个兄弟节点,将的文本作为键,的文本作为值,存储到字典中。
  5. 创建DataFrame: 将包含字典的列表转换为DataFrame。

代码解释