首页 > 文章 > python教程

Python递归提取HTML文件名

时间：2025-03-03 14:00:03 297浏览收藏

本文介绍如何利用Python和Beautiful Soup 4库高效解析复杂的HTML层级结构，并提取其中的文件名。通过编写一个递归函数，深度优先遍历HTML树，并根据`

`标签提取文件名，同时处理嵌套结构和路径拼接。该方法避免了传统字符串处理的低效，能够准确地提取所有目标文件名，并以列表形式输出，提升了代码效率和可读性，尤其适用于处理包含大量嵌套元素的HTML文档。文章还提供了完整的代码示例，并讲解了如何忽略特定标签（例如`

`标签）以避免错误路径生成。

高效解析HTML层级结构并提取文件名
HTML文档内容常常嵌套复杂，使用传统字符串处理方法效率低下。本文介绍如何利用Python的递归函数，轻松遍历HTML结构并提取所需文件名。
HTML解析
首先，我们需要使用合适的库将HTML片段解析成可遍历的数据结构。Beautiful Soup 4库是一个理想的选择：
from bs4 import BeautifulSoup

html_content = """

favicon.ico


    
    banner-ads
    ad01.png
        ad02.png
        ad03.png
        ad04.png
        ad06.jpg
      
"""

soup = BeautifulSoup(html_content, "html.parser")
递归遍历函数
解析完成后，我们使用递归函数深度优先遍历HTML树：
def extract_filenames(element, current_path=""):
    if element.name == "li":
        filename = element.text.strip()
        yield f"{current_path}{filename}" if current_path else filename
    elif element.name and element.name != 'code': #忽略code标签
        new_path = f"{current_path}{element.text.strip()}/" if element.text.strip() else current_path
        for child in element.children:
            yield from extract_filenames(child, new_path)
结果生成与输出
最后，我们调用递归函数，收集所有提取的文件名：
file_paths = list(extract_filenames(soup))
print(file_paths)
#输出：['favicon.ico', 'banner-ads/ad01.png', 'banner-ads/ad02.png', 'banner-ads/ad03.png', 'banner-ads/ad04.png', 'banner-ads/ad06.jpg']
通过以上步骤，我们成功地利用Python递归函数遍历HTML结构，并提取所有所需的文件名，提高了代码效率和可读性。  代码中增加了对code标签的忽略处理，避免了不必要的路径生成。
今天关于《Python递归提取HTML文件名》的内容介绍就到此结束，如果有什么疑问或者建议，可以在golang学习网公众号下多多回复交流；文中若有不正之处，也希望回复留言以告知！