Scrapy Tips

概述

Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

硬核知识点

# scrapy.core.scheduler.Scheduler
# spider
len(self.crawler.engine.slot.scheduler)
# pipeline 
len(spider.crawler.engine.slot.scheduler)
  • 当前正在网络请求的个数
# scrapy.core.engine.Slot.inprogress 就是个 set
# spider
len(self.crawler.engine.slot.inprogress)
# pipeline 
len(spider.crawler.engine.slot.inprogress)

架构图

Scrapy Tips

Scrapy Tips

本文出自 walker snapshot

相关推荐