首页 > 文章 > 前端

用Python提取HTML中的表格数据：div与span

时间：2025-03-17 13:54:54 277浏览收藏

本文介绍如何用Python和Beautiful Soup库从HTML中提取被div和span标签分割的表格数据。教程以一个实际案例讲解如何处理结构复杂的HTML，即使数据分散在不同的div和span标签中也能有效提取。文章详细讲解了代码实现，包括库的安装、HTML解析、数据提取和结果输出，并针对实际情况对代码进行了修改，最后还提出了改进建议，例如根据实际HTML结构调整代码逻辑，添加错误处理机制等，帮助读者更好地应对各种HTML结构和数据分割方式，快速高效地提取所需数据。

如何用Python从HTML中提取由div和span标签分割的表格数据？

利用Python从HTML中提取被div和span标签分割的表格数据

本教程演示如何使用Python和Beautiful Soup库从结构复杂的HTML代码中提取表格数据，这些数据分散在不同的div和span标签中。

安装Beautiful Soup库

首先，确保已安装Beautiful Soup库：

pip install beautifulsoup4

代码实现

以下代码片段展示了整个数据提取过程：

from bs4 import BeautifulSoup

html_doc = """

  
    阅读评论
    标题
    作者
    最后更新
  
  
    471
    2
    ...
    ...
    09-12 00:09
  
  
    603
    3
    ...
    ...
    09-11 16:01
  
"""

soup = BeautifulSoup(html_doc, 'html.parser')

#  由于示例HTML中缺少span标签，以下代码做了修改，直接从div中提取数据
table_rows = soup.find_all('div', class_='articleh')

# 假设表格有5列数据
num_cols = 5
table_data = []
for row in table_rows:
    row_data = row.text.split()  # 使用空格分割数据
    if len(row_data) >= num_cols:  # 确保数据足够
      table_data.append(row_data[:num_cols]) # 只取前5列数据

print(table_data)

代码说明:

导入Beautiful Soup: from bs4 import BeautifulSoup 导入必要的库。
HTML文档: html_doc 变量包含了目标HTML代码。 请注意: 原始示例HTML中缺少span标签，这使得直接使用span标签进行提取变得不可能。此代码已修改为从div标签中提取数据，并假设数据由空格分隔。
解析HTML: soup = BeautifulSoup(html_doc, 'html.parser') 使用html.parser 解析HTML。
查找行: table_rows = soup.find_all('div', class_='articleh') 找到所有包含表格数据的div元素。
提取数据: 代码迭代每个table_rows，使用text.split()方法根据空格将文本内容分割成列表。然后，只取前5个元素，以确保每行数据都包含5列。
打印结果: print(table_data) 打印最终的表格数据，这是一个二维列表。

改进建议:

为了使代码更健壮，建议根据实际HTML结构调整数据提取逻辑。如果HTML结构包含span标签，则需要修改代码以使用find_all('span', class_='...')来定位特定的span标签，并提取其文本内容。此外，可以添加错误处理机制，例如检查数据长度是否符合预期，以避免因HTML结构变化导致的错误。如果数据并非空格分隔，则需要根据实际分隔符修改split()方法的参数。

今天关于《用Python提取HTML中的表格数据：div与span》的内容就介绍到这里了，是不是学起来一目了然！想要了解更多关于的内容请关注golang学习网公众号！