首页 > 文章 > python教程

Python操作PDF：PyPDF2提取文本与合并教程

时间：2026-04-02 11:12:55 317浏览收藏

Python处理PDF远比想象中复杂：PyPDF2虽曾是主流工具，但面对“伪PDF”报错、文本提取为空或乱码、合并后体积暴增、以及Python 3.12+兼容性崩溃等问题，暴露了其底层校验严苛、容错弱、不维护等深层局限；实际开发中，必须结合file命令验证文件真伪、用pdfplumber或OCR应对无文本层/中文乱码、借pikepdf或qpdf优化合并体积，并果断迁移到活跃维护的pypdf——因为PDF的本质是高度碎片化的格式协议，可靠操作的关键不在“怎么写代码”，而在于系统性验证输入、分场景选工具、预处理加兜底的工程化思维。

Python怎么操作PDF文件_PyPDF2提取文本与合并PDF教程

PyPDF2 读取 PDF 报 `PdfReadError: Not a PDF file` 怎么办

不是所有带 .pdf 后缀的文件都是合法 PDF，PyPDF2 对文件头和结构校验严格。常见于下载不完整、被重命名的文档、或用某些在线工具导出的“伪 PDF”（实际是 HTML 或图片打包）。

实操建议：

先用系统命令确认文件类型：file document.pdf，输出应含 PDF document；若显示 data 或 HTML，说明不是真 PDF
用 pdfplumber 或 fitz（PyMuPDF）尝试打开——它们容错更强，但注意：后者需单独安装 pip install PyMuPDF
如果文件来自网页下载，检查是否被浏览器自动保存为 .pdf?xxx 形式，重命名时漏掉了查询参数，导致实际是 HTML 响应体

用 `PyPDF2.PdfReader` 提取文本为空或乱码

PyPDF2 不解析渲染逻辑，只读取 PDF 中的“文本对象流”，而很多 PDF（尤其扫描件、LaTeX 导出、或加了字体子集的文档）根本不存可提取的文本，或者用了未嵌入的字体。

实操建议：

先运行 reader.pages[0].extract_text()，再检查返回值是否为 None 或空字符串；如果是，基本可判定该页无文本层
不要依赖 extract_text() 处理扫描 PDF——它完全无效；改用 pytesseract + pdf2image 做 OCR
中文乱码通常因字体未嵌入或编码映射缺失，PyPDF2 本身不处理字体解码；可换 pdfplumber，它对中文字体支持更稳，调用方式类似：pdfplumber.open("x.pdf").pages[0].extract_text()

`PyPDF2.PdfWriter` 合并 PDF 后体积暴增

PyPDF2 默认不做对象去重和压缩，每合并一次，就把所有原始 PDF 的资源（字体、图像、元数据）全拷一份进来，哪怕内容完全重复。

实操建议：

合并前手动清理源文件：用 qpdf --optimize 预处理（需系统安装 qpdf），或用 pikepdf 替代：pip install pikepdf，它支持原地压缩与对象复用
避免多次 add_page() 后反复写入；一次性收集所有 PdfReader 实例，再统一添加到 PdfWriter，减少中间状态
写入时禁用默认元数据注入：writer.add_metadata({})，否则会把每个源 PDF 的作者/标题等信息都堆进去

PyPDF2 在 Python 3.12+ 上安装失败或运行报 `ImportError: cannot import name 'PDFObjectNotFound'`

PyPDF2 自 3.0.0 版起已停止维护，官方推荐迁移到 pypdf（注意包名变了）。旧版 PyPDF2 不兼容新 Python 的 AST 解析器变更，且部分异常类已被移除。

实操建议：

立刻卸载：pip uninstall PyPDF2，安装替代品：pip install pypdf
代码只需微调：把 from PyPDF2 import PdfReader, PdfWriter 改成 from pypdf import PdfReader, PdfWriter；其余 API 几乎一致
别信“改源码注释掉 import 行”的方案——后续遇到加密 PDF 或数字签名时会崩得更彻底

PDF 操作真正麻烦的从来不是语法，而是格式本身的碎片化：同一份文档，在不同生成工具、不同 Acrobat 版本、甚至不同导出选项下，底层结构可能天差地别。选库只是第一步，验证输入、预处理、兜底策略，一样都不能少。

文中关于的知识介绍，希望对你的学习有所帮助！若是受益匪浅，那就动动鼠标收藏这篇《Python操作PDF：PyPDF2提取文本与合并教程》文章吧，也可关注golang学习网公众号了解相关技术文章。

Python操作PDF：PyPDF2提取文本与合并教程

PyPDF2 读取 PDF 报 PdfReadError: Not a PDF file 怎么办

用 PyPDF2.PdfReader 提取文本为空或乱码

PyPDF2.PdfWriter 合并 PDF 后体积暴增

PyPDF2 在 Python 3.12+ 上安装失败或运行报 ImportError: cannot import name 'PDFObjectNotFound'

PyPDF2 读取 PDF 报 `PdfReadError: Not a PDF file` 怎么办

用 `PyPDF2.PdfReader` 提取文本为空或乱码

`PyPDF2.PdfWriter` 合并 PDF 后体积暴增

PyPDF2 在 Python 3.12+ 上安装失败或运行报 `ImportError: cannot import name 'PDFObjectNotFound'`