首页 > 文章 > python教程

利用Scrapy的预置爬虫模板进行数据采集的实践

时间：2024-03-27 13:16:34 373浏览收藏

随着互联网技术的发展，爬虫技术愈发普及，可自动化抓取互联网数据。Scrapy作为Python著名的爬虫框架，提供了预置的爬虫模板，其中Spider模板适用于通用抓取。本文将介绍如何使用Scrapy的Spider模板进行数据采集，涵盖数据清洗、解析和存储。通过一个实践案例，阐述了从电影网站抓取电影名称、导演、演员、评分并保存到MySQL数据库的过程，展示了Scrapy在数据采集方面的强大功能和简易性。

随着互联网技术的不断发展，爬虫技术也得到了广泛的应用。爬虫技术能够自动化地抓取互联网上的数据，并将其存储在数据库中，为数据分析和数据挖掘提供了便利。Scrapy作为Python中非常著名的爬虫框架，自带了一些通用的爬虫模板，可以快速爬取目标网站上的数据，并自动保存到本地或云端数据库中。本文将介绍如何使用Scrapy自带的爬虫模板进行数据抓取，以及如何在抓取过程中进行数据清洗、解析和存储。

一、Scrapy爬虫模板介绍

Scrapy自带了一些爬虫模板，包括基础的Spider模板、CrawlSpider模板和XmlFeedSpider模板等。Spider模板是最基本的爬虫模板，其优点在于适用范围广，容易上手。CrawlSpider模板则是一种基于规则的爬虫模板，可以快速爬取多级别链接，并支持自定义规则。XmlFeedSpider模板则是一种适用于XML格式的爬虫模板。使用这些模板进行数据抓取，可以大大降低程序员的开发难度，并且能够提高爬取效率。

二、Scrapy爬虫模板应用

下面以一个实际的例子来说明如何使用Scrapy自带的Spider模板进行数据抓取。我们将要爬取的目标网站是一个电影信息网站，网站首页上列出了最新的电影信息。我们需要从这个网站上爬取电影的名称、导演、演员、评分等信息，并将其保存到本地数据库中。

创建Scrapy工程

首先，需要打开命令行窗口，切换到目标工作目录下，然后输入以下命令：

scrapy startproject movies

这个命令将会创建一个名为movies的Scrapy工程，在工程目录下，会包含一个名为 spiders的子目录，该目录用于放置爬虫程序。

创建Spider模板

在工程目录下，使用以下命令来创建一个名为 movie_spider的Spider：

scrapy genspider movie_spider www.movies.com

这个命令将会自动生成一个基于Spider模板的程序，其中www.movies.com代表目标网站的域名。在spiders目录下，会出现一个名为movie_spider.py的文件，其内容如下：

import scrapy

class MovieSpider(scrapy.Spider):
    name = 'movie_spider'
    allowed_domains = ['www.movies.com']
    start_urls = ['http://www.movies.com/']

    def parse(self, response):
        pass

这是一个最基本的Spider程序。其中name表示爬虫名称，allowed_domains表示允许爬取的域名列表，start_urls表示起始爬取网址列表。在parse方法中，我们需要编写数据解析和抓取的代码。

数据抓取与解析

我们需要编写代码从response对象中抓取和解析目标网站的数据。对于刚才提到的电影信息网站，我们可以使用XPath或CSS选择器来定位页面中的元素。假设电影名称保存在页面中的一个class为movie-name的div元素中，那么我们可以使用下面的代码来提取所有的电影名称：

def parse(self, response):
    movies = response.xpath('//div[@class="movie-name"]/text()').extract()
    for movie in movies:
        yield {'name': movie}

这里，我们使用了XPath的语法来定位所有class为movie-name的div元素，并使用extract方法来提取元素中的文本内容。接着，我们使用for循环将每个电影名称yield出来，作为生成器的输出。

类似地，我们可以通过XPath或CSS选择器来定位其他我们感兴趣的元素。比如，导演和演员信息可能保存在class为director的div元素中，评分信息可能保存在class为rate的div元素中。

数据存储

在Spider程序中，我们需要编写代码将抓取到的数据保存到本地或云端数据库中。Scrapy支持将数据保存到多种不同的数据库中，包括MySQL、PostgreSQL、MongoDB等。

比如，我们可以使用MySQL数据库来保存电影信息。在spiders目录下，我们可以创建一个名为mysql_pipeline.py的文件，其中包含如下代码：

import pymysql

class MysqlPipeline(object):
    def __init__(self):
        self.conn = pymysql.connect(host='localhost', user='root', passwd='123456', db='movie_db', charset='utf8')

    def process_item(self, item, spider):
        cursor = self.conn.cursor()
        sql = "INSERT INTO movie(name, director, actors, rate) VALUES(%s, %s, %s, %s)"
        cursor.execute(sql, (item['name'], item['director'], item['actors'], item['rate']))
        self.conn.commit()

    def __del__(self):
        self.conn.close()

该程序将实现数据保存到MySQL数据库中，其中movie_db是数据库名称，movie表将包含name、director、actors、rate四个字段，用于保存电影名称、导演、演员和评分信息。process_item方法用于将Spider程序中生成的item保存到数据库中。

为了使用mysql_pipeline.py文件，我们还需要在settings.py文件中添加如下配置：

ITEM_PIPELINES = {
    'movies.spiders.mysql_pipeline.MysqlPipeline': 300
}

这里，'movies.spiders.mysql_pipeline.MysqlPipeline'指定了mysql_pipeline.py文件的位置和类名。数字300表示数据处理的优先级，数字越小优先级越高。

运行Scrapy程序

在spiders目录下，执行以下命令即可运行Scrapy程序：

scrapy crawl movie_spider

这个命令将会启动名为movie_spider的爬虫程序，开始抓取目标网站的数据并将其存储到MySQL数据库中。

三、总结

本文介绍了如何使用Scrapy自带的爬虫模板进行数据抓取，包括Spider模板、CrawlSpider模板和XmlFeedSpider模板。我们以一个实际的例子为例，说明了如何使用Spider模板进行数据抓取和解析，并将结果保存到MySQL数据库中。使用Scrapy进行数据抓取，可以大大提高数据采集的效率和质量，并为后续的数据分析、数据挖掘等工作提供有力的支持。

今天关于《利用Scrapy的预置爬虫模板进行数据采集的实践》的内容就介绍到这里了，是不是学起来一目了然！想要了解更多关于Scrapy,爬虫,数据抓取的内容请关注golang学习网公众号！

Scrapy 爬虫数据抓取