首页 > 文章 > python教程

Python爬虫如何抓取特定类型的文档_基于正则过滤后缀名实现

时间：2026-05-04 23:55:10 436浏览收藏

怎么入门文章编程？需要学习哪些知识点？这是新手们刚接触编程时常见的问题；下面golang学习网就来给大家整理分享一些知识点，希望能够给初学者一些帮助。本篇文章就来介绍《Python爬虫如何抓取特定类型的文档_基于正则过滤后缀名实现》，涉及到，有需要的可以收藏一下

re.search(r'.pdf$', url) 更可靠，因它可配合先清理 URL 的 # 和 ? 后内容，再精准匹配路径后缀，而 str.endswith() 会因查询参数或锚点返回 False；且正则支持忽略大小写和多格式扩展名。

正则匹配 URL 后缀时，为什么 `re.search(r'\.pdf$', url)` 比 `url.endswith('.pdf')` 更可靠？

因为真实网页中的链接常带查询参数或锚点，比如 https://example.com/report.pdf?version=2#page1。用 str.endswith() 会返回 False，而正则 r'\.pdf$' 能正确锚定在“以 .pdf 结尾”（不考虑 fragment 和 query），前提是先去除 # 和 ? 后的内容。实际处理中建议先用 urllib.parse.urlparse() 提取 path 字段再匹配。

常见错误是直接对原始 url 字符串做后缀判断，漏掉参数干扰；更隐蔽的问题是忽略大小写——.PDF、.Pdf 都应被接受，所以正则推荐写成 r'\.(pdf|docx|xlsx)$' 并加 re.IGNORECASE 标志。

用 `requests` 下载前，如何安全判断响应体是否真为文档内容？

仅靠 URL 后缀不可信：服务端可能返回 200 状态但实际是 HTML 登录页、404 重定向页，或 Content-Type 声明为 text/html 却强行塞了 PDF 二进制流。必须检查三件事：

response.status_code == 200（且非重定向状态码如 302）
response.headers.get('Content-Type', '').lower().startswith(('application/pdf', 'application/vnd.openxmlformats-officedocument'))
len(response.content) > 1024（排除极小的错误响应体）

特别注意：有些站点会把 PDF 放在 iframe 或 JS 动态加载，此时 URL 看似合法，但 requests 直接 GET 返回的是外层 HTML。这种得结合 BeautifulSoup 解析页面，找 </code> 或 <code>fetch(...pdf)</code> 调用。</p> <h3>批量下载时，文件名怎么从 URL 安全提取并保留原始后缀？</h3> <p>别直接用 <code>os.path.basename(url)</code>——URL 可能不含路径，或含多层编码（如 <code>%2F</code>）、参数（<code>?t=123</code>）、锚点（<code>#section</code>）。正确流程是：</p> <ul><li>用 <code>urllib.parse.urlparse(url)</code> 解析出 <code>path</code></li> <li>用 <code>urllib.parse.unquote()</code> 对 <code>path</code> 解码</li> <li>用 <code>os.path.basename()</code> 取最后一段，再用正则 <code>r'[^/\\?#]+\.([a-zA-Z0-9]{2,})$'</code> 提取带后缀的文件名（若没匹配到， fallback 到 <code>hashlib.md5(url.encode()).hexdigest()[:8] + '.pdf'</code>）</li> </ul><p>Windows 下还要过滤非法字符（<code><>:"/\|?*</code>），建议统一替换成下划线；Mac/Linux 用户需注意文件名长度限制，超长名建议截断但保留后缀和哈希前缀。</p> <h3>遇到反爬时，<code>requests</code> 抓不到文档，但浏览器能打开，怎么办？</h3> <p>这类情况大概率是服务端校验了 <code>User-Agent</code>、<code>Referer</code> 或要求执行 JS 渲染。先用浏览器开发者工具看 Network 面板里 PDF 请求的完整 headers 和请求方式（GET/POST？带不带 cookies？）。</p> <p>简单修复可加基础头：</p> <pre class="brush:php;toolbar:false">headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36', 'Accept': 'application/pdf,*/*;q=0.8', 'Referer': 'https://example.com/list/' }</pre> <p>如果仍失败，说明该文档由前端 JS 拼接 URL 或动态生成 token（如 <code>/download?id=123&token=abc</code>），这时必须用 <code>playwright</code> 或 <code>selenium</code> 启动真实浏览器，等 JS 执行完再提取最终 URL——否则正则白过滤，<code>requests</code> 白发请求。</p> <p>真正难啃的是文档藏在登录态后、或需滑动验证的场景，这时候正则过滤后缀只是第一步，后续链路完全依赖身份维持和行为模拟，不能只盯着 URL 规则。</p><p>好了，本文到此结束，带大家了解了《Python爬虫如何抓取特定类型的文档_基于正则过滤后缀名实现》，希望本文对你有所帮助！关注golang学习网公众号，给大家分享更多文章知识！</p> </div> <div class="labsList"> </div> </div>  <div class="contBoxNor"> <div class="contTit"> <div class="tit">相关阅读</div> <a href="/articlelist.html" class="more">更多></a> </div> <ul class="latestReadList"> <li> <div class="info"> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  1个月前  |   </div> <div class="tit lineOverflow"><a href="/article/616032.html" title="Python监控网页状态：requests异常处理实战" class="aBlack">Python监控网页状态：requests异常处理实战</a></div> <div class="opt"> <span><i class="view"></i>501</span> <span class="collectBtn user_collection" data-id="616032" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </div> </li> <li> <div class="info"> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  1个月前  |   </div> <div class="tit lineOverflow"><a href="/article/612350.html" title="TensorFlow模型部署为API的TF Serving方法" class="aBlack">TensorFlow模型部署为API的TF Serving方法</a></div> <div class="opt"> <span><i class="view"></i>501</span> <span class="collectBtn user_collection" data-id="612350" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </div> </li> <li> <div class="info"> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  1个月前  |   </div> <div class="tit lineOverflow"><a href="/article/602477.html" title="Python字符串编码转换：encode与decode详解" class="aBlack">Python字符串编码转换：encode与decode详解</a></div> <div class="opt"> <span><i class="view"></i>501</span> <span class="collectBtn user_collection" data-id="602477" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </div> </li> <li> <div class="info"> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  1个月前  |   </div> <div class="tit lineOverflow"><a href="/article/602019.html" title="TensorFlow裁剪无用算子方法详解" class="aBlack">TensorFlow裁剪无用算子方法详解</a></div> <div class="opt"> <span><i class="view"></i>501</span> <span class="collectBtn user_collection" data-id="602019" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </div> </li> <li> <div class="info"> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  2个月前  |   </div> <div class="tit lineOverflow"><a href="/article/588986.html" title="httpx 如何设置代理认证（Proxy-Authorization）" class="aBlack">httpx 如何设置代理认证（Proxy-Authorization）</a></div> <div class="opt"> <span><i class="view"></i>501</span> <span class="collectBtn user_collection" data-id="588986" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </div> </li> </ul> </div>  <div class="contBoxNor"> <div class="contTit"> <div class="tit">最新阅读</div> <a href="/articlelist.html" class="more">更多></a> </div> <ul class="latestReadList"> <li> <div class="info"> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  3天前  |   <a href="/articletag/40157_new_0_1.html" class="aLightGray" title="[]">[]</a> · <a href="javascript:;" class="aLightGray" title="[]">[]</a> </div> <div class="tit lineOverflow"><a href="/article/620195.html" title="Python 写一个文件夹清理小工具：按体积、天数和白名单安全删除临时文件" class="aBlack">Python 写一个文件夹清理小工具：按体积、天数和白名单安全删除临时文件</a></div> <div class="opt"> <span><i class="view"></i>428</span> <span class="collectBtn user_collection" data-id="620195" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </div> </li> <li> <div class="info"> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  4天前  |   </div> <div class="tit lineOverflow"><a href="/article/620167.html" title="Python requests 没设超时：一次任务队列卡住的排查和修复" class="aBlack">Python requests 没设超时：一次任务队列卡住的排查和修复</a></div> <div class="opt"> <span><i class="view"></i>435</span> <span class="collectBtn user_collection" data-id="620167" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </div> </li> <li> <div class="info"> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  1星期前  |   <a href="/articletag/1392_new_0_1.html" class="aLightGray" title="csv">csv</a> · <a href="/articletag/2337_new_0_1.html" class="aLightGray" title="python">python</a> · <a href="/articletag/3145_new_0_1.html" class="aLightGray" title="数据处理">数据处理</a> · <a href="/articletag/4861_new_0_1.html" class="aLightGray" title="sqlite3">sqlite3</a> · <a href="javascript:;" class="aLightGray" title="CSV导入">CSV导入</a> <a href="javascript:;" class="aLightGray" title="数据校验">数据校验</a> <a href="javascript:;" class="aLightGray" title="sqlite3">sqlite3</a> <a href="javascript:;" class="aLightGray" title="数据生命周期">数据生命周期</a> <a href="javascript:;" class="aLightGray" title="python教程">python教程</a> <a href="javascript:;" class="aLightGray" title="错误行">错误行</a> </div> <div class="tit lineOverflow"><a href="/article/620120.html" title="Python CSV 导入流水线：从原始文件到可查询数据和错误行清理" class="aBlack">Python CSV 导入流水线：从原始文件到可查询数据和错误行清理</a></div> <div class="opt"> <span><i class="view"></i>354</span> <span class="collectBtn user_collection" data-id="620120" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </div> </li> <li> <div class="info"> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  1星期前  |   <a href="/articletag/172_new_0_1.html" class="aLightGray" title="标准库">标准库</a> · <a href="/articletag/1678_new_0_1.html" class="aLightGray" title="资源管理">资源管理</a> · <a href="/articletag/39719_new_0_1.html" class="aLightGray" title="Python教程">Python教程</a> · <a href="/articletag/40032_new_0_1.html" class="aLightGray" title="上下文管理器">上下文管理器</a> · <a href="javascript:;" class="aLightGray" title="Python">Python</a> <a href="javascript:;" class="aLightGray" title="上下文管理器">上下文管理器</a> <a href="javascript:;" class="aLightGray" title="标准库">标准库</a> <a href="javascript:;" class="aLightGray" title="资源清理">资源清理</a> <a href="javascript:;" class="aLightGray" title="contextlib">contextlib</a> <a href="javascript:;" class="aLightGray" title="ExitStack">ExitStack</a> </div> <div class="tit lineOverflow"><a href="/article/620084.html" title="Python contextlib 资源清理配方：把 try/finally 收进上下文管理器" class="aBlack">Python contextlib 资源清理配方：把 try/finally 收进上下文管理器</a></div> <div class="opt"> <span><i class="view"></i>429</span> <span class="collectBtn user_collection" data-id="620084" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </div> </li> <li> <div class="info"> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  1星期前  |   <a href="/articletag/172_new_0_1.html" class="aLightGray" title="标准库">标准库</a> · <a href="/articletag/214_new_0_1.html" class="aLightGray" title="定时任务">定时任务</a> · <a href="/articletag/39719_new_0_1.html" class="aLightGray" title="Python教程">Python教程</a> · <a href="/articletag/39792_new_0_1.html" class="aLightGray" title="自动化脚本">自动化脚本</a> · <a href="javascript:;" class="aLightGray" title="Python">Python</a> <a href="javascript:;" class="aLightGray" title="定时任务">定时任务</a> <a href="javascript:;" class="aLightGray" title="失败重试">失败重试</a> <a href="javascript:;" class="aLightGray" title="标准库">标准库</a> <a href="javascript:;" class="aLightGray" title="sched">sched</a> <a href="javascript:;" class="aLightGray" title="本地调度器">本地调度器</a> </div> <div class="tit lineOverflow"><a href="/article/620077.html" title="Python sched 定时任务小实验：注册任务、轮询运行和失败重试" class="aBlack">Python sched 定时任务小实验：注册任务、轮询运行和失败重试</a></div> <div class="opt"> <span><i class="view"></i>432</span> <span class="collectBtn user_collection" data-id="620077" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </div> </li> <li> <div class="info"> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  2星期前  |   <a href="/articletag/16_new_0_1.html" class="aLightGray" title="文件处理">文件处理</a> · <a href="/articletag/39694_new_0_1.html" class="aLightGray" title="内存优化">内存优化</a> · <a href="/articletag/39719_new_0_1.html" class="aLightGray" title="Python教程">Python教程</a> · <a href="/articletag/40016_new_0_1.html" class="aLightGray" title="故障复盘">故障复盘</a> · <a href="javascript:;" class="aLightGray" title="Python">Python</a> <a href="javascript:;" class="aLightGray" title="内存优化">内存优化</a> <a href="javascript:;" class="aLightGray" title="文件处理">文件处理</a> <a href="javascript:;" class="aLightGray" title="read">read</a> <a href="javascript:;" class="aLightGray" title="大文件读取">大文件读取</a> <a href="javascript:;" class="aLightGray" title="分块读取">分块读取</a> </div> <div class="tit lineOverflow"><a href="/article/620072.html" title="Python 读取大文件内存飙升复盘：从 read() 一次读入到分块迭代修复" class="aBlack">Python 读取大文件内存飙升复盘：从 read() 一次读入到分块迭代修复</a></div> <div class="opt"> <span><i class="view"></i>196</span> <span class="collectBtn user_collection" data-id="620072" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </div> </li> <li> <div class="info"> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  2星期前  |   <a href="/articletag/5619_new_0_1.html" class="aLightGray" title="logging">logging</a> · <a href="/articletag/39719_new_0_1.html" class="aLightGray" title="Python教程">Python教程</a> · <a href="/articletag/39745_new_0_1.html" class="aLightGray" title="后端开发">后端开发</a> · <a href="/articletag/40012_new_0_1.html" class="aLightGray" title="日志排查">日志排查</a> · <a href="javascript:;" class="aLightGray" title="Python">Python</a> <a href="javascript:;" class="aLightGray" title="logging">logging</a> <a href="javascript:;" class="aLightGray" title="日志重复">日志重复</a> <a href="javascript:;" class="aLightGray" title="propagate">propagate</a> <a href="javascript:;" class="aLightGray" title="addHandler">addHandler</a> <a href="javascript:;" class="aLightGray" title="basicConfig">basicConfig</a> </div> <div class="tit lineOverflow"><a href="/article/620070.html" title="Python logging 日志重复打印排查：为什么一条记录输出了两遍" class="aBlack">Python logging 日志重复打印排查：为什么一条记录输出了两遍</a></div> <div class="opt"> <span><i class="view"></i>324</span> <span class="collectBtn user_collection" data-id="620070" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </div> </li> <li> <div class="info"> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  2星期前  |   <a href="/articletag/982_new_0_1.html" class="aLightGray" title="任务调度">任务调度</a> · <a href="/articletag/39719_new_0_1.html" class="aLightGray" title="Python教程">Python教程</a> · <a href="/articletag/39745_new_0_1.html" class="aLightGray" title="后端开发">后端开发</a> · <a href="/articletag/40010_new_0_1.html" class="aLightGray" title="云架构">云架构</a> · <a href="javascript:;" class="aLightGray" title="Python">Python</a> <a href="javascript:;" class="aLightGray" title="任务调度">任务调度</a> <a href="javascript:;" class="aLightGray" title="定时任务">定时任务</a> <a href="javascript:;" class="aLightGray" title="云架构">云架构</a> <a href="javascript:;" class="aLightGray" title="队列">队列</a> <a href="javascript:;" class="aLightGray" title="Worker">Worker</a> </div> <div class="tit lineOverflow"><a href="/article/620068.html" title="Python 定时任务上云选型：从单机脚本到队列 Worker 的架构决策" class="aBlack">Python 定时任务上云选型：从单机脚本到队列 Worker 的架构决策</a></div> <div class="opt"> <span><i class="view"></i>435</span> <span class="collectBtn user_collection" data-id="620068" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </div> </li> <li> <div class="info"> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  2星期前  |   <a href="/articletag/2337_new_0_1.html" class="aLightGray" title="python">python</a> · <a href="/articletag/14185_new_0_1.html" class="aLightGray" title="requests">requests</a> · <a href="/articletag/39789_new_0_1.html" class="aLightGray" title="接口调试">接口调试</a> · <a href="/articletag/40005_new_0_1.html" class="aLightGray" title="网络请求">网络请求</a> · <a href="javascript:;" class="aLightGray" title="Python">Python</a> <a href="javascript:;" class="aLightGray" title="重试">重试</a> <a href="javascript:;" class="aLightGray" title="Requests">Requests</a> <a href="javascript:;" class="aLightGray" title="timeout">timeout</a> <a href="javascript:;" class="aLightGray" title="HTTP接口">HTTP接口</a> </div> <div class="tit lineOverflow"><a href="/article/620057.html" title="Python requests 请求总是卡住？timeout、重试和错误处理配方" class="aBlack">Python requests 请求总是卡住？timeout、重试和错误处理配方</a></div> <div class="opt"> <span><i class="view"></i>478</span> <span class="collectBtn user_collection" data-id="620057" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </div> </li> <li> <div class="info"> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  3星期前  |   <a href="/articletag/5173_new_0_1.html" class="aLightGray" title="异步编程">异步编程</a> · <a href="/articletag/39699_new_0_1.html" class="aLightGray" title="后端工程">后端工程</a> · <a href="/articletag/39719_new_0_1.html" class="aLightGray" title="Python教程">Python教程</a> · <a href="/articletag/39720_new_0_1.html" class="aLightGray" title="asyncio">asyncio</a> · <a href="/articletag/39984_new_0_1.html" class="aLightGray" title="超时排查">超时排查</a> · <a href="javascript:;" class="aLightGray" title="Python">Python</a> <a href="javascript:;" class="aLightGray" title="超时控制">超时控制</a> <a href="javascript:;" class="aLightGray" title="asyncio">asyncio</a> <a href="javascript:;" class="aLightGray" title="任务取消">任务取消</a> <a href="javascript:;" class="aLightGray" title="wait_for">wait_for</a> <a href="javascript:;" class="aLightGray" title="异步清理">异步清理</a> </div> <div class="tit lineOverflow"><a href="/article/620041.html" title="Python asyncio 超时后任务还在跑排查：从 wait_for 到取消清理" class="aBlack">Python asyncio 超时后任务还在跑排查：从 wait_for 到取消清理</a></div> <div class="opt"> <span><i class="view"></i>320</span> <span class="collectBtn user_collection" data-id="620041" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </div> </li> <li> <div class="info"> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  3星期前  |   <a href="/articletag/307_new_0_1.html" class="aLightGray" title="JSON">JSON</a> · <a href="/articletag/377_new_0_1.html" class="aLightGray" title="配置管理">配置管理</a> · <a href="/articletag/1809_new_0_1.html" class="aLightGray" title="环境变量">环境变量</a> · <a href="/articletag/39699_new_0_1.html" class="aLightGray" title="后端工程">后端工程</a> · <a href="/articletag/39719_new_0_1.html" class="aLightGray" title="Python教程">Python教程</a> · <a href="javascript:;" class="aLightGray" title="Python">Python</a> <a href="javascript:;" class="aLightGray" title="环境变量">环境变量</a> <a href="javascript:;" class="aLightGray" title="JSON">JSON</a> <a href="javascript:;" class="aLightGray" title="配置加载">配置加载</a> <a href="javascript:;" class="aLightGray" title="默认值合并">默认值合并</a> <a href="javascript:;" class="aLightGray" title="启动检查">启动检查</a> </div> <div class="tit lineOverflow"><a href="/article/620033.html" title="Python 配置加载工作流：从环境变量到 JSON 合并和启动前检查" class="aBlack">Python 配置加载工作流：从环境变量到 JSON 合并和启动前检查</a></div> <div class="opt"> <span><i class="view"></i>321</span> <span class="collectBtn user_collection" data-id="620033" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </div> </li> <li> <div class="info"> <a href="/articlelist/19_new_0_1.html" class="aLightGray" title="文章">文章</a> · <a href="/articlelist/86_new_0_1.html" class="aLightGray" title="python教程">python教程</a>   |  3星期前  |   <a href="/articletag/3145_new_0_1.html" class="aLightGray" title="数据处理">数据处理</a> · <a href="/articletag/11574_new_0_1.html" class="aLightGray" title="jsonl">jsonl</a> · <a href="/articletag/39719_new_0_1.html" class="aLightGray" title="Python教程">Python教程</a> · <a href="javascript:;" class="aLightGray" title="Python">Python</a> <a href="javascript:;" class="aLightGray" title="数据清洗">数据清洗</a> <a href="javascript:;" class="aLightGray" title="流式读取">流式读取</a> <a href="javascript:;" class="aLightGray" title="大文件处理">大文件处理</a> <a href="javascript:;" class="aLightGray" title="JSONL">JSONL</a> </div> <div class="tit lineOverflow"><a href="/article/620004.html" title="Python JSONL 大文件分批处理：从流式读取到失败样本报告" class="aBlack">Python JSONL 大文件分批处理：从流式读取到失败样本报告</a></div> <div class="opt"> <span><i class="view"></i>365</span> <span class="collectBtn user_collection" data-id="620004" data-type="article" title="收藏"><i class="collect"></i>收藏</span> </div> </li> </ul> </div>  <div class="contBoxNor"> <div class="contTit"> <div class="tit">课程推荐</div> <a href="/courselist.html" class="more">更多></a> </div> <ul class="classRecomList"> <li> <a href="/course/9.html" title="前端进阶之JavaScript设计模式" class="img_box"> <img src="/uploads/20221222/52fd0f23a454c71029c2c72d206ed815.jpg" onerror="this.onerror='';this.src='/assets/images/moren/morentu.png'" alt="前端进阶之JavaScript设计模式"> </a> <dl> <dt class="lineOverflow"> 前端进阶之JavaScript设计模式 </dt> <dd class="cont1 lineOverflow">设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。</dd> <dd class="cont2"> <a href="/course/9.html" title="前端进阶之JavaScript设计模式" class="toStudy">立即学习</a> <span>543次学习</span> </dd> </dl> </li> <li> <a href="/course/2.html" title="GO语言核心编程课程" class="img_box"> <img src="/uploads/20221221/634ad7404159bfefc6a54a564d437b5f.png" onerror="this.onerror='';this.src='/assets/images/moren/morentu.png'" alt="GO语言核心编程课程"> </a> <dl> <dt class="lineOverflow"> GO语言核心编程课程 </dt> <dd class="cont1 lineOverflow">本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。</dd> <dd class="cont2"> <a href="/course/2.html" title="GO语言核心编程课程" class="toStudy">立即学习</a> <span>516次学习</span> </dd> </dl> </li> <li> <a href="/course/74.html" title="简单聊聊mysql8与网络通信" class="img_box"> <img src="/uploads/20240103/bad35fe14edbd214bee16f88343ac57c.png" onerror="this.onerror='';this.src='/assets/images/moren/morentu.png'" alt="简单聊聊mysql8与网络通信"> </a> <dl> <dt class="lineOverflow"> 简单聊聊mysql8与网络通信 </dt> <dd class="cont1 lineOverflow">如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让</dd> <dd class="cont2"> <a href="/course/74.html" title="简单聊聊mysql8与网络通信" class="toStudy">立即学习</a> <span>500次学习</span> </dd> </dl> </li> <li> <a href="/course/57.html" title="JavaScript正则表达式基础与实战" class="img_box"> <img src="/uploads/20221226/bbe4083bb3cb0dd135fb02c31c3785fb.jpg" onerror="this.onerror='';this.src='/assets/images/moren/morentu.png'" alt="JavaScript正则表达式基础与实战"> </a> <dl> <dt class="lineOverflow"> JavaScript正则表达式基础与实战 </dt> <dd class="cont1 lineOverflow">在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。</dd> <dd class="cont2"> <a href="/course/57.html" title="JavaScript正则表达式基础与实战" class="toStudy">立即学习</a> <span>487次学习</span> </dd> </dl> </li> <li> <a href="/course/28.html" title="从零制作响应式网站—Grid布局" class="img_box"> <img src="/uploads/20221223/ac110f88206daeab6c0cf38ebf5fe9ed.jpg" onerror="this.onerror='';this.src='/assets/images/moren/morentu.png'" alt="从零制作响应式网站—Grid布局"> </a> <dl> <dt class="lineOverflow"> 从零制作响应式网站—Grid布局 </dt> <dd class="cont1 lineOverflow">本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。</dd> <dd class="cont2"> <a href="/course/28.html" title="从零制作响应式网站—Grid布局" class="toStudy">立即学习</a> <span>485次学习</span> </dd> </dl> </li> </ul> </div> </div>  <div class="footer"> <ul> <li ><a href="/" class="aLightGray"><em class="navIcon navIconHome"></em><span>首页</span></a></li> <li class="curr"><a href="/articlelist.html" class="aLightGray"><em class="navIcon navIconRead"></em><span>阅读</span></a></li> <li ><a href="/courselist.html" class="aLightGray"><em class="navIcon navIconCourse"></em><span>课程</span></a></li> <li ><a href="/ai.html" class="aLightGray"><em class="navIcon navIconAi"></em><span>AI助手</span></a></li> <li ><a href="/user.html" class="aLightGray"><em class="navIcon navIconUser"></em><span>我的</span></a></li> </ul> </div> <script src="/assets/js/frontend/common.js" defer></script> <script src="/assets/js/juejin-theme.js?v=20260613b" defer></script> <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?e34c3e8ab31ba35d7e1c48ea8d77315f"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </body> </html>

Python爬虫如何抓取特定类型的文档_基于正则过滤后缀名实现

正则匹配 URL 后缀时，为什么 re.search(r'\.pdf$', url) 比 url.endswith('.pdf') 更可靠？

用 requests 下载前，如何安全判断响应体是否真为文档内容？

正则匹配 URL 后缀时，为什么 `re.search(r'\.pdf$', url)` 比 `url.endswith('.pdf')` 更可靠？

用 `requests` 下载前，如何安全判断响应体是否真为文档内容？