首页 > 文章 > python教程

Python爬虫下载PDF教程全攻略

时间：2026-05-10 23:58:05 407浏览收藏

本文深入解析了Python爬虫批量下载PDF文件的实战难点与最佳实践，指出单纯依赖正则匹配href中“.pdf”后缀极易遗漏大量真实PDF链接——因实际链接常含查询参数、重定向短链、大小写混用或藏于onclick/data-url/download等属性中；强调应先全面提取各类URL候选，再结合小写后缀判断与MIME类型校验（如application/pdf）进行精准过滤；同时详解了二进制安全下载的关键：必须使用response.content、验证Content-Type、正确处理相对路径（urljoin）、动态生成文件名及目录管理；并直击批量下载痛点——IP被封问题，给出设置真实User-Agent与Referer、合理控制并发、智能退避重试等可落地的反反爬策略，最终揭示真正挑战不在于技术实现，而在于如何可靠识别“真正可用的PDF资源”，需融合HEAD预检、响应头分析与轻量采样验证，全面提升爬取鲁棒性与成功率。

如何使用Python爬虫批量下载网页中的PDF文档_利用re正则表达式匹配下载链接

为什么直接用 `re.findall` 匹配 `href` 容易漏掉 PDF 链接

网页中 PDF 链接不一定以 .pdf 结尾，常见情况包括：?file=report.pdf、&id=123、带重定向的短链、大小写混合（.PDF 或 .Pdf），甚至用 onclick="window.open('xxx.pdf')" 动态触发。单纯匹配 r'href="([^"]+\.pdf)"' 会跳过这些。

更稳妥的做法是先提取所有可能的 URL 字符串，再统一用后缀 + MIME 类型线索过滤：

用 re.findall(r'href\s*=\s*["\']([^"\']+)["\']', html) 和 re.findall(r"src\s*=\s*['\"]([^'\"]+)['\"]", html) 覆盖基础属性
额外捕获 onclick、data-url、download 属性里的值，例如：re.findall(r"download\s*=\s*['\"]([^'\"]+)['\"]", html)
对每个候选链接，用 url.lower().endswith(('.pdf', '.pdf?')) 判断，比正则更鲁棒

如何用 `requests` 正确下载并保存 PDF，避免乱码或截断

PDF 是二进制文件，必须以 bytes 模式写入，且不能依赖响应体的 text 属性——否则会触发默认 UTF-8 解码，导致文件损坏。

关键点：

使用 response.content（不是 response.text）获取原始字节
检查 response.headers.get('content-type')，确认是否为 application/pdf 或 binary/octet-stream，排除 HTML 伪装成 PDF 的情况
用 os.path.basename(urlparse(url).path) 提取文件名，若为空则生成随机名，如 f"doc_{int(time.time())}.pdf"
保存前确保目录存在：os.makedirs(save_dir, exist_ok=True)

示例片段：

import requests
from urllib.parse import urlparse
import os
def download_pdf(url, save_dir="pdfs"):
os.makedirs(save_dir, exist_ok=True)
try:
r = requests.get(url, timeout=10)
r.raise_forstatus()
if 'application/pdf' not in r.headers.get('content-type', ''):
return False
fname = os.path.basename(urlparse(url).path) or f"doc{int(time.time())}.pdf"
with open(os.path.join(save_dir, fname), "wb") as f:
f.write(r.content)
return True
except Exception as e:
print(f"Failed {url}: {e}")
return False

为什么批量下载时频繁被封 IP，以及怎么缓解

目标网站通常通过请求频率、User-Agent 单一、缺少 Referer 等特征识别爬虫。单纯加 time.sleep(1) 不够，还可能因并发连接耗尽本地端口或触发 CDN 限流。

实际有效手段：

设置真实浏览器 User-Agent，例如：headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"}
每次请求附带 Referer（设为该 PDF 所在页面 URL），模拟真实点击路径
限制最大并发数：用 concurrent.futures.ThreadPoolExecutor(max_workers=3)，而非无节制 for url in urls: download_pdf(url)
对 429/503 响应主动退避：time.sleep(5 * (2 ** retry_count))

PDF 链接是相对路径时，如何自动补全为绝对 URL

从 HTML 提取的 href="/files/report.pdf" 或 href="docs/yearly.pdf" 无法直接下载，必须转成完整 URL。手动拼接容易出错，尤其当页面 URL 含查询参数或锚点时。

正确做法是用 urllib.parse.urljoin：

传入原始页面 URL（如 "https://example.com/reports/"）和相对链接（如 "../data/2023.pdf"）
它会按 RFC 3986 规则处理 ..、.、协议继承、路径截断等边界情况
不要用字符串拼接或正则替换，比如 base_url + href 在 base_url 缺少结尾 / 时会产出 https://a.com/bc.pdf 这种错误路径

示例：

from urllib.parse import urljoin
page_url = "https://example.com/reports/index.html"
relative_link = "../pdfs/summary.pdf"
abs_url = urljoin(page_url, relative_link)  # → "https://example.com/pdfs/summary.pdf"

真正难的不是写出正则，而是判断哪个链接“确实指向一个可访问的 PDF 文件”。很多看似匹配的链接返回 404、跳转到登录页、或内容其实是 HTML 错误页——得靠 HEAD 请求预检 + Content-Type 校验 + 小范围 GET 采样，才能筛掉这批“假阳性”。

好了，本文到此结束，带大家了解了《Python爬虫下载PDF教程全攻略》，希望本文对你有所帮助！关注golang学习网公众号，给大家分享更多文章知识！

Python爬虫下载PDF教程全攻略

为什么直接用 re.findall 匹配 href 容易漏掉 PDF 链接

如何用 requests 正确下载并保存 PDF，避免乱码或截断

为什么批量下载时频繁被封 IP，以及怎么缓解

PDF 链接是相对路径时，如何自动补全为绝对 URL

为什么直接用 `re.findall` 匹配 `href` 容易漏掉 PDF 链接

如何用 `requests` 正确下载并保存 PDF，避免乱码或截断