首页 > 文章 > python教程

Scrapy分页爬取：提取下一页URL并继续抓取

时间：2026-05-21 20:42:28 262浏览收藏

本文深入解析了Scrapy中稳健实现分页爬取的核心实践：强调必须显式使用`response.css()`或`xpath`提取下一页URL，经`response.urljoin()`补全后，以`scrapy.Request(callback=self.parse)`发起请求，坚决避免依赖`response.follow()`的隐式回调、硬编码起始URL或忽视去重与并发控制；同时指出常见陷阱——如空链接、未补全路径导致404、URL参数污染引发重复抓取、默认并发引发反爬封锁，并给出清洗URL、合理配置`CONCURRENT_REQUESTS`和`DOWNLOAD_DELAY`、增加fallback校验等可落地的防御性方案，帮你写出高可靠、易维护、抗变化的分页爬虫。

Python Scrapy怎么做分页爬取_提取下一页URL并yield给当前回调函数继续抓取

Scrapy里怎么提取下一页URL并交给同一个parse函数处理

直接用 response.css() 或 response.xpath() 提取下一页链接，再用 scrapy.Request() 构造新请求，callback=self.parse 显式指定回调——这是最稳妥的做法。别依赖默认回调，容易在中间加了其他解析逻辑后出错。

常见错误是提取到空字符串或相对路径没补全，导致请求 404 或重定向失败；还有人把下一页逻辑写在 start_urls 里硬编码，根本没法动态翻页。

优先用 response.css('a.next::attr(href)').get()，比 xpath 更轻量，CSS 选择器也更易读
提取结果必须用 response.urljoin() 处理，否则遇到 /page/2 这类相对路径会拼成 http://example.com/page/2 而不是完整域名地址
加个非空判断：如果 next_url 是 None 或空字符串，就直接 return，别 yield 空 Request

为什么不能直接 yield response.follow() 而不设 callback

response.follow() 默认复用当前回调函数，看起来省事，但隐式行为在调试时极难追踪——比如你后来给 parse 加了 if 'detail' in response.url 分支，下一页请求可能意外掉进 detail 分支里，数据就乱了。

更麻烦的是，一旦你把 parse 拆成 parse_list 和 parse_item，而忘了改 follow() 的 callback，下一页就会被当成详情页解析，字段全错。

显式写 callback=self.parse 是防御性写法，哪怕函数名改了、逻辑拆了，只要还叫 self.parse 就不会断
response.follow() 内部其实也是调 scrapy.Request()，没必要为少打几个字牺牲可维护性
如果真要用 follow()，至少加上 callback=self.parse，别让它猜

分页爬取时怎么避免重复抓取同一页

很多网站下一页按钮在最后一页仍存在（比如指向自身或 404），或者 URL 带时间戳、随机参数，导致 Scrapy 把同一页面当新请求反复抓。这不是逻辑问题，是去重机制没对上。

Scrapy 默认靠 request_fingerprint 去重，但如果你手动拼了 URL、加了 headers 或 meta，指纹就变了。最简单的办法是确保下一页请求的 URL 干净、稳定。

用 urlparse 清洗 URL：去掉 utm_*、timestamp= 这类无意义参数
在 scrapy.Request() 里加 meta={'page': 2} 记录页码，但别把它当去重依据——meta 不参与指纹计算
如果目标站有 API 分页（如 ?page=2），优先用数字递增生成 URL，比从 HTML 提取更可控

Scrapy 分页性能差？可能是没控制并发和延迟

一页接一页 yield Request，看着顺序清晰，但默认设置下 Scrapy 会尽可能并发发请求，如果下一页 URL 提取失败或响应慢，整个 pipeline 就卡住。不是代码写错了，是配置没调好。

尤其遇到反爬强的站点，连续请求容易触发封 IP 或 429，这时候光靠重试不够，得压节奏。

在 settings.py 里设 CONCURRENT_REQUESTS = 1 强制串行——适合小规模、结构稳定的分页
加 DOWNLOAD_DELAY = 1，比 time.sleep() 安全，Scrapy 会自动做 jitter 防检测
慎用 ROBOTSTXT_OBEY = True：有些站 robots.txt 把 /page/* 拒绝了，但实际允许人工翻页，这时得关掉它再单独处理

分页最难的不是提取链接，是判断“到底有没有下一页”——DOM 结构可能变化、JS 渲染可能延迟、服务端可能返回空内容却不报错。所以永远别只信一个选择器，加个 fallback 提取方式，或者用状态码 + 内容长度双校验。

到这里，我们也就讲完了《Scrapy分页爬取：提取下一页URL并继续抓取》的内容了。个人认为，基础知识的学习和巩固，是为了更好的将其运用到项目中，欢迎关注golang学习网公众号，带你了解更多关于的知识点！