分布式爬虫架构设计与实现
由于scrapy框架需要更多的学习成本,还有分布式爬虫也需要redis来实现,调度方式也不是很符合业务要求,于是就自己设计了个分布式爬虫架构。
架构图如下:
架构图如下:
爬虫的客户端为tornado编写的服务,爬虫管理器也是tornado编写的后台管理服务,主要功能:获取客户端的状态信息,爬虫进程数量,启动指定数量的爬虫进程,中断、重启爬虫,爬虫异常通知等。
爬虫进程与调度器间的请求非常频繁,所以使用socket长连,获取优先级高的队列,调度器的优先级算法,根据业务需求来编写。
消息队列使用rabbitmq,而不用redis,因为rabbitmq的消息确认机制,能够保证每个要爬的url都能被成功请求,不会因为某些异常而导致数据漏爬。
爬回的数据看业务需求,可以直接入库,或者放入Kafka。建议先不进行数据清洗,避免偶尔数据清洗错误时,又要重新爬取。
求offer:python后端,或者爬虫
欢迎一起交流学习
相关推荐
地平线 2020-11-02
richermen 2020-10-15
ahaoGG 2020-09-24
sushuanglei 2020-11-12
ptmagic 2020-10-31
jaryle 2020-10-13
深圳克林斯曼 2020-10-10
koko0c 2020-09-26
互联网架构之路 2020-09-17
阿义 2020-09-11
Cheetahcubs 2020-09-07
互联网架构之路 2020-09-03
憧憬 2020-08-21
zyshappy 2020-08-16
loviezhang 2020-08-08
xayddxjsjxywuhui 2020-07-20
唐亚杰 2020-07-17
ZHANGYONGHAO0 2020-07-05
枫叶上的雨露 2020-07-04