scrapy使用心得

paleyellow

2019-06-27

关注关注

前言

在公司一部分业务是爬虫相关了，有涉及到登录，验证码，也有国外的4大社交网站。所以记录下

scrapy 是什么

scrapy 是一个异步爬虫框架，使用它，可以屏蔽很多复杂的底层设计，只需要解析下载下来的页面，更多了我们需要关注的是目标网站/页面爬取的难易程度，该怎么来实现它。虽然是，但是在爬取大量网站可能需要用分布式的爬虫，当然scrapy 也有

操作流程图

scrapy使用心得

指定一个起始url后，scrapy就可以根据以上原理图进行工作了。一个最简单的页面，指定页面的url进行第一次请求，经过引擎，交给调度器，然后调度器再返回给引擎，去下载这个页面，拿到这个页面就可以进行解析了。这里明显看的出来绕了一个圈子，如果最简单的的页面，这样子会发现多了调度这一步。但是一般在实际业务中，特别是分布式爬虫，会有很多url 需要爬取，而且一些url是动态添加到待爬队列的，
我们将所有的待爬都在调度器进行分配，当然这里也有其他操作，比如，一个url已经调度过，那么会进行标识，做到不再重复爬取。

队列

scrapy 默认的队列

SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleLifoDiskQueue'
SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.LifoMemoryQueue'
SCHEDULER_PRIORITY_QUEUE = 'queuelib.PriorityQueue'

一般我们不关心这个队列结构，但是在做分布式时这个队列就需要替换

scrapy_redis

scrapy 本身是异步，但是不支持分布式爬取。要做到分布式爬取，那么需要一个公共的待爬队列

scrapy_redis 需要制定队列结构，可在 SpiderQueue，SpiderStack，
SpiderPriorityQueue 中选者一个，形如

SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"

安科网

scrapy使用心得

paleyellow

前言

scrapy 是什么

操作流程图

队列

scrapy_redis

更多知识

paleyellow

相关推荐

scrapy 管理部署的爬虫项目的python类

8_3 scrapy模拟登录人人网

如何利用Scrapy爬虫框架抓取网页全部文章信息（上篇）

一分钟搞定Scrapy分布式爬虫、队列和布隆过滤器

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（下篇）

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇）

手把手教你进行Scrapy中item类的实例化操作

如何改造 Scrapy 从而实现多网站大规模爬取？

二十六、Scrapy自定义命令

分布式爬虫部署基于scrapy和scrapy-redis

Python爬虫 - scrapy

Scrapy爬虫

用scrapy爬取图片

scrapy基本知识

Python爬虫 - scrapy框架的基本操作

十八、scrapy内置媒体（图片和文件）下载方式

Scrapy爬虫

Python Scrapy图片爬取原理及代码实例

scrapy 详解

paleyellow