爬虫学习 17.基于scrapy-redis两种形式的分布式爬虫

枫叶上的雨露

2020-01-10

关注关注

爬虫学习 17.基于scrapy-redis两种形式的分布式爬虫

redis分布式部署

1.scrapy框架是否可以自己实现分布式？

　　- 不可以。原因有二。

　　　　其一：因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls列表中的url。（多台机器无法共享同一个调度器）

　　　　其二：多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久出存储。（多台机器无法共享同一个管道）

2.基于scrapy-redis组件的分布式爬虫

? - scrapy-redis组件中为我们封装好了可以被多台机器共享的调度器和管道，我们可以直接使用并实现分布式数据爬取。

? - 实现方式：

? 1.基于该组件的RedisSpider类

? 2.基于该组件的RedisCrawlSpider类

3.分布式实现流程：上述两种不同方式的分布式实现流程是统一的

? - 3.1 下载scrapy-redis组件：pip install scrapy-redis

? - 3.2 redis配置文件的配置：

- 注释该行：bind 127.0.0.1，表示可以让其他ip访问redis

- 将yes该为no：protected-mode no，表示可以让其他ip操作redis

? 3.3 修改爬虫文件中的相关代码：

? - 将爬虫类的父类修改成基于RedisSpider或者RedisCrawlSpider。注意：如果原始爬虫文件是基于Spider的，则应该将父类修改成RedisSpider，如果原始爬虫文件是基于CrawlSpider的，则应该将其父类修改成RedisCrawlSpider。

? - 注释或者删除start_urls列表，切加入redis_key属性，属性值为scrpy-redis组件中调度器队列的名称

? 3.4 在配置文件中进行相关配置，开启使用scrapy-redis组件中封装好的管道

ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 400
}

? 3.5 在配置文件中进行相关配置，开启使用scrapy-redis组件中封装好的调度器

# 使用scrapy-redis组件的去重队列
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 使用scrapy-redis组件自己的调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 是否允许暂停
SCHEDULER_PERSIST = True

? 3.6 在配置文件中进行爬虫程序链接redis的配置：

REDIS_HOST = 'redis服务的ip地址'
REDIS_PORT = 6379
REDIS_ENCODING = ‘utf-8’
REDIS_PARAMS = {‘password’:’123456’}

? 3.7 开启redis服务器：redis-server 配置文件

? 3.8 开启redis客户端：redis-cli

? 3.9 运行爬虫文件：scrapy runspider SpiderFile

? 3.10 向调度器队列中扔入一个起始url（在redis客户端中操作）：lpush redis_key属性值起始url

redis redis分布式分布式部署

枫叶上的雨露

0 关注 0 粉丝 0 动态

关注关注

Redis中的String类型及使用Redis解决订单秒杀超卖问题

本系列将和大家分享Redis分布式缓存，本章主要简单介绍下Redis中的String类型，以及如何使用Redis解决订单秒杀超卖问题。Redis中5种数据结构之String类型：key-value的缓存，支持过期，value不超过512M。Redis是单线

聚合室 2020-11-16

快速制作Redis Docker镜像

现在容器化已经是趋势，制作镜像也是我们的基础工作。镜像越小，部署起来越方便。在这个方面，轻巧的Linux发行版本就是一个很好的选择，这里我们选择alpine linux 。目前最新版本是3.12.1。官方很友好的提供了minirootfs的包，这个包就是为

王道革 2020-11-25

Go+Vue开发一个线上外卖应用的流程(用户名密码和图形验证码)

在使用用户名和密码登录功能时，需要填写验证码，验证码是以图形化的方式进行获取和展示的。验证通过即可继续进行登录。借助开源的验证码工具库可以生成验证码。第一个example是用于演示生成验证码和验证码的示例代码。当验证码生成后，将验证码存放在Redis中，并

wangdonghello 2020-11-03

Windows安装Redis并添加本地自启动服务的实例详解

在windows本地搭建redis缓存，添加到本地计算机的服务中，保证每次开机自动启动服务。解压缩包，拷贝文件夹到计算机指定的磁盘下。然后编辑redis.windows.conf文件，设置redis的密码：找到# requirepass foobared

Langeldep 2020-11-16

Redis客户端及服务端的安装教程详解

本系列将和大家分享Redis分布式缓存，本文是该系列的开篇，主要简单介绍下Redis客户端及服务端的安装。基于内存管理，实现了5种数据结构，单线程模型的应用程序，对外提供插入--查询--固化--集群功能。但是不能当数据库，不能作为数据的最终依据。单线程多进

chenhualong0 2020-11-16

详解Redis数据结构之跳跃表

我们先不谈Redis，来看一下跳表。还要支持输入道具名称的精确查询和不输入名称的全量查询。拍卖行商品列表是线性的，最容易表达线性结构的是数组和链表。每个元素均关联一个double类型的score，Redis 根据score进行从小到大排序；这个是 Redi

koushr 2020-11-12

Linux下redis5.0.5的安装过程与配置方法

先将 redis-5.0.5 里的配置文件 redis.conf 移动到刚创建的 config 文件夹。注释掉 bind 127.0.0.1 这一行。将 protected-mode 属性改为 no

MRFENGG 2020-11-11

Redis 的 GeoHash详解

Redis 在 3.2 版本以后增加了地理位置 GEO 模块，意味着我们可以使用 Redis 来实现摩拜单车「附近的 Mobike」、美团和饿了么「附近的餐馆」这样的功能了。比如掘金办公室在望京 SOHO，它的经纬度坐标是，都是正数，因为中国位于东北半球

guoyanga 2020-11-10

通过kubesphere部署redis的方法

docker run --name redis -p 6379:6379 -d --restart=always a4d3716dbb72 redis-server --appendonly yes --requirepass "123456&q

fackyou00 2020-11-10

为啥Redis使用pipelining会更快

为啥Redis使用pipelining会更快？为什么执行结果相差如此之大呢？因为这是连接本地的redis，所以网络开销非常小，当然，这里仍然有一部分是网络开销影响，可是除此之外是否还有其它影响因素呢？答案是有，比如OS进程调度，当不使用管道时，Redis处

Orangesss 2020-11-03

基于Redis+Lua脚本实现分布式限流组件封装的方法

<artifactId>spring-boot-starter-data-redis</artifactId>. -- Created by IntelliJ IDEA.local count = tonumber(redis.ca

dongCSDN 2020-10-31

Redis概述及linux安装redis的详细教程

性能极高，Redis能读的速度是110000次/s,写的速度是81000次/s 。Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set

rainandtear 2020-10-30

Redis常用数据类型命令实例汇总

存储：zadd key score menber1 score menber2 ...删除指定的key：del key1 key2...获取所有与pattern匹配的key： keys pattern 。

Quietboy 2020-10-30

解密Redis助力双11背后电商秒杀系统(推荐)

秒杀活动是绝大部分电商选择的低价促销，推广品牌的方式。既可以给平台带来用户量，还可以提高平台知名度。一个好的秒杀系统，可以提高平台系统的稳定性和公平性，获得更好的用户体验，提升平台的口碑，从而提升秒杀活动的最大价值。本文讨论云数据库Redis版缓存设计高并

liuyulong 2020-10-29

硬核！15张图解Redis为什么这么快(推荐)

作为一名服务端工程师，工作中你肯定和 Redis 打过交道。Redis为什么快，这点想必你也知道，至少为了面试也做过准备。很多人知道Redis快仅仅因为它是基于内存实现的，对于其它原因倒是模棱两可。Redis 是基于内存的数据库，那不可避免的就要与磁盘数据

fansili 2020-10-29

Redis持久化RDB和AOF区别详解

触发机制--主要三种方式。主进程通过fork()函数，创建子进程生成DRB文件，在此期间访问redis仍然能正常响应。save 300 10 #300秒修改了10次就自动生成RDB文件。stop-writes-on-bgsave-error yes #b

温攀峰 2020-10-23

关于使用IDEA的springboot框架往Redis里写入数据乱码问题

解决方法：在你RedisUtil类里加入下图红框的的代码，

vapaad 2020-10-22

Redis 对过期数据的处理方法

惰性删除不会去主动删除数据，而是在访问数据的时候，再检查当前键值是否过期，如果过期则执行删除并返回 null 给客户端，如果没有过期则返回正常信息给客户端。它的优点是简单，不需要对过期的数据做额外的处理，只有在每次访问的时候才会检查键值是否过期，缺点是删除

jackbon 2020-10-19

redis中scan命令的基本实现方法

在一个天朗气清的日子，小灰登上了线上的redis打算查询数据。然而他只记得前缀而不知道整个键是多少，于是在命令行敲入了“keys xxx*”命令。瞬间服务卡死，报警邮件堆满了邮箱，而小灰，只能目瞪狗呆的等待着即将降临的case study。基本上，keys

kaixinfelix 2020-10-04

详解centos7 yum安装redis及常用命令

Redis是一种基于内存的数据结构存储，可持久化的日志型、Key-Value数据库。使用关系型数据库的站点达到一定并发量的时候，往往在磁盘IO上会有瓶颈，这时候配合redis就有一定的优势，因为它具有以下几个特性：。基于内存运行，高并发读写；支持分布式，理

xiemanR 2020-09-21

安科网

爬虫学习 17.基于scrapy-redis两种形式的分布式爬虫

枫叶上的雨露

爬虫学习 17.基于scrapy-redis两种形式的分布式爬虫

枫叶上的雨露

相关推荐

Redis中的String类型及使用Redis解决订单秒杀超卖问题

快速制作Redis Docker镜像

Go+Vue开发一个线上外卖应用的流程(用户名密码和图形验证码)

Windows安装Redis并添加本地自启动服务的实例详解

Redis客户端及服务端的安装教程详解

详解Redis数据结构之跳跃表

Linux下redis5.0.5的安装过程与配置方法

Redis 的 GeoHash详解

通过kubesphere部署redis的方法

为啥Redis使用pipelining会更快

基于Redis+Lua脚本实现分布式限流组件封装的方法

Redis概述及linux安装redis的详细教程

Redis常用数据类型命令实例汇总

解密Redis助力双11背后电商秒杀系统(推荐)

硬核！15张图解Redis为什么这么快(推荐)

Redis持久化RDB和AOF区别详解

关于使用IDEA的springboot框架往Redis里写入数据乱码问题

Redis 对过期数据的处理方法

redis中scan命令的基本实现方法

详解centos7 yum安装redis及常用命令

枫叶上的雨露