如何改造 Scrapy 从而实现多网站大规模爬取？

wumxiaozhu

2020-10-16

Scrapy 框架默认是用来开发定向爬虫的。一般情况下，在 spiders 文件夹下面的一个.py 文件对应了一个网站的爬取。

但还有另外一种爬虫，它不会拘泥于提取页面上的特定文字，而是关注如何并行爬取非常多的网站。这种爬虫可以实现大规模的爬取。这种爬虫，一般是从若干个种子网址开始爬。进入每个网址后，把该页面的所有网址作为新的种子网址继续爬取，源源不断，生生不息。但爬到以后，一般直接把整个页面的源代码保存下来，通过 Kafka 或者其他组件传给另外的服务进行解析。

为了让 Scrapy 适配这种通用的解析逻辑，需要做一些定制化修改。Scrapy 官方文档中，给出了几点修改建议。

如何改造 Scrapy 从而实现多网站大规模爬取？

修改调度队列

Scrapy 默认的调度队列是scrapy.pqueues.ScrapyPriorityQueue，它适合做定向爬虫使用，对于通用爬虫，我们应该修改为scrapy.pqueues.DownloaderAwarePriorityQueue。在 settings.py文件中添加一行：

SCHEDULER_PRIORITY_QUEUE = 'scrapy.pqueues.DownloaderAwarePriorityQueue'

提高并发量在

settings.py中增加配置：

CONCURRENT_REQUESTS = 100 
CONCURRENT_REQUESTS_PER_DOMAIN = 100

但是并发量实际上受内存和 CPU 的限制，建议实际测试，选择最适合的数字。

提高 Twisted IO 线程池大小

Scrapy 在做 DNS 解析的时候，是阻塞式的。所以请求量越高，解析 DNS 就会越慢。为了避免这个情况，可以提高线程池的大小。在 settings.py中增加一个配置：

REACTOR_THREADPOOL_MAXSIZE = 20

搭建专用 DNS 服务器

如果爬虫进程数太多，并发又太快，可能会对 DNS 服务器形成 Dos 攻击。所以建议自己单独搭建一个 DNS 服务器。

减少日志量

Scrapy 默认是 DEBUG 级别的日志等级，每次爬取会产生大量的日志。通过把日志等级调整到INFO 可以大大减少日志量。在 settings.py 中增加一行：

LOG_LEVEL = 'INFO'

禁用 Cookies 和自动重试

大规模爬虫一般不需要用到 Cookies，所以可以把它禁用。请求失败的自动重试会降低爬虫的速度。但是由于大规模爬虫的爬取范围很大，对于个别失败的请求没有必要重试。因此修改settings.py：

COOKIES_ENABLED = False 
RETRY_ENABLED = False

降低请求超时时间，禁用自动跳转

有些网址因为远在大洋彼岸或者受到了干扰，请求响应时间很长。对于这种网址，应该果断放弃，避免影响其他网址的爬取。

禁用自动跳转功能，也有助于提高网页访问速度。

DOWNLOAD_TIMEOUT = 10 
REDIRECT_ENABLED = False

使用广度有限搜索

Scrapy 默认基于深度优先(DFO)搜索算法。但在大规模爬虫中，我们一般会使用广度有限(BFO)搜索算法：

scrapy

安科网

如何改造 Scrapy 从而实现多网站大规模爬取？

wumxiaozhu

wumxiaozhu

相关推荐

如何利用Scrapy爬虫框架抓取网页全部文章信息（上篇）

一分钟搞定Scrapy分布式爬虫、队列和布隆过滤器

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（下篇）

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇）

手把手教你进行Scrapy中item类的实例化操作

二十六、Scrapy自定义命令

scrapy 管理部署的爬虫项目的python类

分布式爬虫部署基于scrapy和scrapy-redis

8_3 scrapy模拟登录人人网

Python爬虫 - scrapy

Scrapy爬虫

用scrapy爬取图片

scrapy基本知识

Python爬虫 - scrapy框架的基本操作

十八、scrapy内置媒体（图片和文件）下载方式

Scrapy爬虫

Python Scrapy图片爬取原理及代码实例

scrapy 详解

scrapy安装及入门使用

wumxiaozhu