Scrapy 实战之爬取妹子图

heyboz

2019-06-28

关注关注

Scrapy 实战之爬取妹子图

阅读文本大概需要 10 分钟。

很多人说爬虫这门技术非常有趣，但不知道如何入门。其实爬虫入门非常简单，难的部分在于各大网站的反爬机制。当然对于一些简单的网站，还是非常容易爬取。

学习爬虫首先要明确你的驱动力，是想爬一些知乎的数据，还是一些电影的资源。驱动力非常重要，这决定你是否有足够的兴趣继续学下去。

很多人学习爬虫的第一驱动力就是爬取各大网站的妹子图片，比如比较有名的 mzitu。在爬这些网站的时候，即可以欣赏漂亮的妹子图，又能学习到技术，非常的 nice。

Scrapy 实战之爬取妹子图

今天我就结合非常好用的 scrapy 框架，去抓取一些妹子图片，并把爬取的数据保存到 mongodb 数据库中。本次要爬取的网站是 360 的图片搜索网站，

地址：http://images.so.com/

360 图片的妹子质量还是非常可以的，我随意放几张大家感受下。

Scrapy 实战之爬取妹子图

清纯可爱的

Scrapy 实战之爬取妹子图

文艺又气质的

Scrapy 实战之爬取妹子图

仙气十足的

非常的赏心悦目。

程序思路

本次程序运行的环境是 windows 10 + python 3.6，运行本次程序前首先确保你已经安装好了 scrapy、pymongo 以及 mongodb 数据库。

简单的分析了下 360 图片网站，并没有很强的反爬措施，并且网站的数据是以 Ajax 请求呈现。

Scrapy 实战之爬取妹子图

我们进一步查看请求的详情，观察返回的数据结构。

Scrapy 实战之爬取妹子图

返回的是 JSON 数据格式，其中 list 字段把图片的一些信息都保存在这里面。比如我们需要的图片地址信息 cover_imgurl。另外观察 Ajax 请求的参数信息，还有一个 sn 一直在变化，这个参数很明显就是偏移量。当 sn 为 30 时，返回的是前 30 张图片，依次类推，我们只需要改变 sn 的值就可以一直获取图片的信息。

接下来我们只需要通过 scrapy 高性能的框架，把网站上的图片保存到本地即可。

Scrapy 实战之爬取妹子图

新建项目

首先在本地创建一个 scrapy 项目并命名为 images360。通过已下的命名即可创建。

scrapy startproject images360

</pre>

随后就会有如下的项目结构

Scrapy 实战之爬取妹子图

接下来就是在 spiders 目录下新建一个 Spider，命令如下：

scrapy genspider images images.so.com

这样我们的项目都已创建好，最后项目的结构如下。

Scrapy 实战之爬取妹子图

程序代码

settings.py

在 settings.py 里面会先定义一个变量 MAX_PAGE，表示我们需要爬取的最大页面，比如在此次的程序中我们设置的是 50，也就是爬取 50 页，每页 30 张，一共 1500 张图片。

MAX_PAGE = 50

settings.py 文件中我们还设置一些数据库相关的配置信息。

MONGO_URI = 'localhost'
MONGO_DB = 'test'
IMAGES_STORE = './images'

并且需要注意的是我们要修改 settings.py 中的 ROBOTSTXT_OBEY 变量，将其设置为 False，否则无法抓取。

ROBOTSTXT_OBEY = False

start_requests()

这个函数用来构造最开始的请求，用来生成 50 次请求。

    def start_requests(self):
        data = {'ch': 'photogtaphy', 'listtype': 'new'}
        base_url = 'https://image.so.com/zj?0'
        for page in range(1, self.settings.get('MAX_PAGE') + 1):
            data['sn'] = page * 30
            params = urlencode(data)
            url = base_url + params
            yield Request(url, self.parse

提取信息

我们会在 items.py 文件中定义一个 Images360Item 类，用来定义我们的数据结构。

class Images360Item(Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    collection = table = 'images'
    id = Field()
    url = Field()
    title = Field()
    thumb = Field()

其中包括图片的 ID、链接、标题、缩略图。另外还有两个属性 collection 和 table，都定义为 images 字符串，代表 MongoDB 存储的 Collection 名称。

接下来我们提取 Spider 里有关信息，在 parse() 方法改写成如下所示：

    def parse(self, response):
        result = json.loads(response.text)
        for image in result.get('list'):
            item = Images360Item()
            item['id'] = image.get('imageid')
            item['url'] = image.get('qhimg_url')
            item['title'] = image.get('group_title')
            item['thumb'] = image.get('qhimg_thumb_url')
            yield item

这样我们就完成了信息的提取，接下来就需要把抓取的信息保存到 MongoDB 中。

MongoDB

首先确保你本地已经安装好了 MongoDB，并且已经正常启动。我们用一个 MongoPipeline 将信息保存到 MongoDB 中，在 pipelines.py 里添加如下类的实现：

class MongoPipeline(object):
    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db

    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            mongo_uri=crawler.settings.get('MONGO_URI'),
            mongo_db=crawler.settings.get('MONGO_DB')
        )

    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]

    def process_item(self, item, spider):
        self.db[item.collection].insert(dict(item))
        return item

    def close_spider(self, spider):
        self.client.close()

</pre>

Scrapy 提供了专门处理下载的 Pipeline，包括文件下载和图片下载。下载文件和图片的原理与抓取页面的原理一样，因此下载过程支持异步和多线程，下载十分高效。

我们首先在 settings.py 定义一个 IMAGES_STORE 变量，用来表示图片存储的路径。

IMAGES_STORE = './images'

内置的 ImagesPipeline 会默认读取 Item 的 image_urls 字段，并认为该字段是一个列表形式，它会遍历 Item 的 image_urls 字段，然后取出每个 URL 进行图片下载。

但是现在生成的 Item 的图片链接字段并不是 image_urls 字符表示的，也不是列表形式，而是单个的 URL。所以为了实现下载，我们需要重新定义下载的部分逻辑，即要自定义 ImagePipeline，继承内置的 ImagesPipeline，从而实现我们自己的图片下载逻辑。

class ImagePipeline(ImagesPipeline):
    def file_path(self, request, response=None, info=None):
        url = request.url
        file_name = url.split('/')[-1]
        return file_name

    def item_completed(self, results, item, info):
        image_paths = [x['path'] for ok, x in results if ok]
        if not image_paths:
            raise DropItem('Image Downloaded Failed')
        return item

    def get_media_requests(self, item, info):
        yield Request(item['url'])

最后我们需要在 settings.py 中把我们定义好的 Item Pipeline 打开，修改 settings.py 中的 ITEM_PIPELINES 即可。

ITEM_PIPELINES = {
   'images360.pipelines.ImagePipeline': 300,
   'images360.pipelines.MongoPipeline': 301
}

最后我们只需要运行程序，即可执行爬取，程序运行命名如下：

scrapy crawl images

完整代码我已上传到微信公众号后台，在「痴海」公众号后台回复「360」即可获取。

本文首发于公众号「痴海」，后台回复「1024」即可获取最新编程资源。

比如这样的：史上最全 Python 学习资料，PDF 电子书大合集

Scrapy 实战之爬取妹子图

scrapy segmentfault

安科网

Scrapy 实战之爬取妹子图

heyboz

heyboz

相关推荐

Scrapy项目实战：爬取某社区用户详情

如何利用Scrapy爬虫框架抓取网页全部文章信息（上篇）

一分钟搞定Scrapy分布式爬虫、队列和布隆过滤器

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（下篇）

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇）

手把手教你进行Scrapy中item类的实例化操作

如何改造 Scrapy 从而实现多网站大规模爬取？

二十六、Scrapy自定义命令

scrapy 管理部署的爬虫项目的python类

分布式爬虫部署基于scrapy和scrapy-redis

8_3 scrapy模拟登录人人网

Python爬虫 - scrapy

Scrapy爬虫

用scrapy爬取图片

scrapy基本知识

Python爬虫 - scrapy框架的基本操作

十八、scrapy内置媒体（图片和文件）下载方式

Scrapy爬虫

Python Scrapy图片爬取原理及代码实例

heyboz