首页 > 文章 > python教程

Python爬虫实战：Scrapy与Selenium教程

时间：2025-08-14 09:34:48 154浏览收藏

哈喽！今天心血来潮给大家带来了《Python搭建自动化爬虫：Scrapy与Selenium实战教程》，想必大家应该对文章都不陌生吧，那么阅读本文就都不会很困难，以下内容主要涉及到，若是你正在学习文章，千万别错过这篇文章~希望能帮助到你！

Scrapy与Selenium结合是处理现代动态网页的有效策略，因为Scrapy高效但无法解析JavaScript渲染的内容，而Selenium能通过浏览器完整执行JS并模拟用户交互，弥补了Scrapy的短板，同时仅在必要时调用Selenium可避免其性能开销。1. 配置时需安装scrapy、selenium和webdriver_manager，编写自定义下载器中间件SeleniumMiddleware，在其中初始化无头浏览器实例；2. 在process_request方法中判断请求是否包含'use_selenium'标记，若是则用Selenium加载页面并返回渲染后的HtmlResponse；3. 在settings.py中启用中间件并设置优先级高于默认下载器；4. 在Spider中发送请求时通过meta={'use_selenium': True}触发Selenium处理。常见挑战包括资源消耗大、反爬检测和驱动维护困难，优化建议包括：1. 启用无头模式减少开销；2. 仅对需JS渲染的页面使用Selenium；3. 复用WebDriver实例而非频繁创建；4. 使用显式等待替代固定延时；5. 通过Chrome选项禁用图片、CSS等非必要资源加载；6. 加强异常捕获与日志记录；7. 利用webdriver_manager自动管理驱动版本。该组合充分发挥两者优势，实现高效且稳定的动态网页爬取。

Python怎样构建自动化爬虫？Scrapy+selenium

Python构建自动化爬虫，特别是当面对那些高度动态、依赖JavaScript渲染的现代网页时，Scrapy与Selenium的组合无疑是一个非常强大且实用的方案。它允许我们兼顾效率与对复杂页面行为的驾驭能力。这就像是给Scrapy这辆高速列车，加装了一个能够处理崎岖山路的越野车模块，确保它能抵达任何目的地。

解决方案

要构建一个结合Scrapy和Selenium的自动化爬虫，核心思路是让Scrapy负责大部分的请求调度、数据管道和整体架构，而Selenium则作为Scrapy的一个定制下载器中间件，专门处理那些需要浏览器渲染或交互的特定请求。当Scrapy的默认HTTP客户端无法获取到完整页面内容时，它会将请求转交给Selenium驱动的真实浏览器实例，由浏览器完成页面加载、JavaScript执行，甚至模拟用户点击等操作，然后将渲染后的页面HTML内容返回给Scrapy进行后续解析。这种分工既保证了大规模爬取的效率，又解决了动态内容的抓取难题。

为什么Scrapy和Selenium的结合是处理现代网页的有效策略？

说实话，刚开始接触爬虫时，我们总希望一个工具就能解决所有问题。Scrapy无疑是处理静态HTML页面和大规模数据抓取的利器，它的异步I/O和高度可定制的管道让效率飙升。但现实是，现在绝大多数网站都大量依赖JavaScript来动态加载内容、构建用户界面，甚至进行数据传输。这时候，Scrapy直接发出的HTTP请求，往往只能拿到一个空壳或者部分数据。

而Selenium，它是一个浏览器自动化工具，能够启动真实的浏览器（如Chrome、Firefox），模拟用户的各种行为：点击、输入、滚动、等待元素加载等等。它能完整地执行页面上的JavaScript代码，直到页面完全渲染完毕。单独使用Selenium进行大规模爬取，会非常慢，因为它要启动并维护多个浏览器实例，资源消耗巨大。但如果只用它来处理Scrapy搞不定的那些“硬骨头”，比如需要登录才能看到的内容、懒加载的图片、或者通过AJAX异步加载的数据，那么这种组合就显得尤为高效。它弥补了Scrapy在处理动态内容上的短板，同时避免了Selenium作为主爬取工具时的性能瓶颈。

如何在Scrapy项目中配置和集成Selenium驱动？

将Selenium集成到Scrapy中，主要是通过编写一个自定义的下载器中间件（Downloader Middleware）。这个中间件会在Scrapy发送请求之前拦截它，判断是否需要Selenium来处理，如果需要，就启动或复用一个Selenium WebDriver实例来访问URL，获取渲染后的页面内容。

首先，你需要安装必要的库：pip install scrapy selenium webdriver_manager（webdriver_manager可以帮助你自动管理浏览器驱动）。

接着，你需要选择一个浏览器驱动，比如Chrome的ChromeDriver。

这是一个简化的SeleniumMiddleware示例，你可以把它放在Scrapy项目的middlewares.py文件中：

# middlewares.py

from scrapy.http import HtmlResponse
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.options import Options
import logging

logger = logging.getLogger(__name__)

class SeleniumMiddleware:
    def __init__(self):
        # 初始化Chrome选项，推荐使用无头模式
        chrome_options = Options()
        chrome_options.add_argument("--headless")  # 无头模式
        chrome_options.add_argument("--no-sandbox") # 某些环境可能需要
        chrome_options.add_argument("--disable-dev-shm-usage") # 某些环境可能需要
        # 更多选项可以根据需要添加，比如User-Agent
        # chrome_options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36")

        # 自动下载和管理ChromeDriver
        service = Service(ChromeDriverManager().install())
        self.driver = webdriver.Chrome(service=service, options=chrome_options)
        logger.info("Selenium WebDriver initialized.")

    @classmethod
    def from_crawler(cls, crawler):
        middleware = cls()
        crawler.signals.connect(middleware.spider_closed, signal=crawler.signals.spider_closed)
        return middleware

    def process_request(self, request, spider):
        # 检查请求是否标记为需要Selenium处理
        if 'use_selenium' in request.meta and request.meta['use_selenium']:
            logger.debug(f"Processing request with Selenium: {request.url}")
            try:
                self.driver.get(request.url)
                # 等待页面加载完成，可以根据实际情况调整等待策略
                # from selenium.webdriver.support.ui import WebDriverWait
                # from selenium.webdriver.support import expected_conditions as EC
                # from selenium.webdriver.common.by import By
                # WebDriverWait(self.driver, 10).until(EC.presence_of_element_located((By.ID, "some_element_id")))

                body = self.driver.page_source
                return HtmlResponse(self.driver.current_url, body=body, encoding='utf-8', request=request)
            except Exception as e:
                logger.error(f"Selenium failed to load {request.url}: {e}")
                # 可以在这里选择重试或返回None让Scrapy处理
                return None # 返回None表示让Scrapy继续尝试下一个下载器或默认下载器
        return None # 返回None表示让Scrapy继续处理该请求，不使用Selenium

    def spider_closed(self, spider):
        # 确保在爬虫关闭时关闭浏览器实例
        if self.driver:
            self.driver.quit()
            logger.info("Selenium WebDriver closed.")

然后在你的Scrapy项目settings.py中启用这个中间件，并调整其顺序，确保它在默认下载器之前被调用：

# settings.py

DOWNLOADER_MIDDLEWARES = {
    'your_project_name.middlewares.SeleniumMiddleware': 543, # 确保数字在默认下载器之前
    # 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
    # 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600,
    # ... 其他中间件
}

最后，在你的Scrapy Spider中，当你需要某个请求通过Selenium处理时，只需在请求的meta中添加'use_selenium': True：

# your_spider.py

import scrapy

class MySpider(scrapy.Spider):
    name = 'my_spider'
    start_urls = ['http://example.com/dynamic_page']

    def parse(self, response):
        # 假设这个页面需要Selenium来渲染
        yield scrapy.Request(
            url='http://example.com/another_dynamic_page',
            callback=self.parse_selenium_page,
            meta={'use_selenium': True}
        )
        # 也可以直接在start_requests里使用
        # for url in self.start_urls:
        #     yield scrapy.Request(url, self.parse_selenium_page, meta={'use_selenium': True})

    def parse_selenium_page(self, response):
        # 这里response.body就是Selenium渲染后的页面HTML
        self.logger.info(f"Received page from Selenium: {response.url}")
        # 可以使用Scrapy的选择器进行解析
        title = response.css('title::text').get()
        self.logger.info(f"Page title: {title}")
        # 进一步提取数据...

这样，Scrapy在遇到带有use_selenium=True标记的请求时，就会自动调用你的Selenium中间件来获取页面内容。

使用Scrapy和Selenium组合爬虫时，有哪些常见的挑战与优化建议？

尽管Scrapy与Selenium的组合非常强大，但实际操作起来，你会遇到一些挑战，毕竟引入了一个“浏览器”这个庞然大物。

一个很直接的问题就是资源消耗。每个Selenium实例都会启动一个真实的浏览器进程，这会占用大量的CPU和内存。如果你同时运行几十个甚至上百个Selenium请求，你的机器很可能就吃不消了。这直接导致了爬取速度的下降，毕竟浏览器加载页面本身就需要时间。

另一个挑战是反爬机制的升级。虽然Selenium能模拟真实用户行为，但很多网站的反爬机制也在不断进化，它们可能会检测到你是自动化工具（例如通过JavaScript检测WebDriver属性、检测浏览器指纹等）。有时候，即使页面加载出来了，也可能因为被识别为机器人而无法获取到关键数据。

浏览器驱动的版本维护也挺烦人的。Chrome浏览器更新频繁，每次更新后，你可能都需要更新对应的ChromeDriver，否则Selenium就无法正常工作。这在生产环境中尤其麻烦。

那么，如何应对这些挑战，优化你的爬虫呢？

1. 充分利用无头模式（Headless Mode）：这是最基本的优化。在初始化Selenium WebDriver时，务必启用无头模式（chrome_options.add_argument("--headless")）。这意味着浏览器会在后台运行，没有图形界面，大大减少了资源占用。

2. 智能地使用Selenium：不要对所有请求都使用Selenium。Scrapy应该仍然是你的主力。只有当Scrapy的默认HTTP客户端无法获取到完整或正确的数据时，才将请求标记为use_selenium=True。例如，你可以先用Scrapy尝试抓取，如果发现关键元素缺失，再用Selenium重新抓取。

3. 复用WebDriver实例：在上面的中间件示例中，我们只创建了一个self.driver实例，并在爬虫生命周期内复用它。避免为每个请求都创建一个新的WebDriver，这会造成巨大的开销。当然，如果你需要并发处理多个Selenium请求，可能需要维护一个WebDriver池，但这会增加复杂性。对于大多数情况，一个复用实例就足够了。

4. 恰当的等待策略：动态加载内容需要时间。不要在driver.get()之后立即获取page_source。使用Selenium的显式等待（WebDriverWait）来等待特定的元素出现或某个条件满足，这比简单的time.sleep()更高效和健壮。

5. 优化浏览器配置：可以通过chrome_options禁用图片加载、禁用CSS、禁用JavaScript（如果不需要执行JS），或者设置代理等，进一步减少资源消耗和提高加载速度。但禁用JS要慎重，因为你用Selenium通常就是为了执行JS。

6. 错误处理与日志：Selenium操作过程中可能会遇到各种异常，比如元素找不到、超时等。完善的try-except块和详细的日志记录，能帮助你快速定位问题，提高爬虫的稳定性。

7. 定期更新驱动：虽然webdriver_manager能自动管理，但在部署时仍需注意环境和驱动的兼容性。

总的来说，Scrapy与Selenium的结合，就像一把瑞士军刀，功能强大，但要用得好，需要对症下药，精打细算。

以上就是《Python爬虫实战：Scrapy与Selenium教程》的详细内容，更多关于Scrapy,Selenium,自动化爬虫,动态网页,下载器中间件的资料请关注golang学习网公众号！

Scrapy Selenium 自动化爬虫动态网页下载器中间件