Scrapy Tips
概述
Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
- Scrapy 1.1 开始支持 Python3。(2016上半年)
- Scrapy 1.5 不再支持 Python 3.3。(2017下半年)
- Scrapy 官网:https://scrapy.org/
- Scrapy GitHub:https://github.com/scrapy/scrapy
- Scrapy pypi:https://pypi.org/project/Scrapy/
- Scrapy 官方文档:https://docs.scrapy.org/en/la...
- Scrapy 中文网 1.5 文档:http://www.scrapyd.cn/doc/
硬核知识点
- 队列中的请求个数(https://stackoverflow.com/que...)
# scrapy.core.scheduler.Scheduler # spider len(self.crawler.engine.slot.scheduler) # pipeline len(spider.crawler.engine.slot.scheduler)
- 当前正在网络请求的个数
# scrapy.core.engine.Slot.inprogress 就是个 set # spider len(self.crawler.engine.slot.inprogress) # pipeline len(spider.crawler.engine.slot.inprogress)
架构图
本文出自 walker snapshot
相关推荐
andrewwf 2020-11-11
Arvinzx 2020-10-28
CycloneKid 2020-10-27
paleyellow 2020-10-25
baifanwudi 2020-10-25
heyboz 2020-10-21
wumxiaozhu 2020-10-16
ZHANGRENXIANG00 2020-07-27
zhangll00 2020-07-05
javaraylu 2020-06-28
ZHANGRENXIANG00 2020-06-28
Catastrophe 2020-06-26
Catastrophe 2020-06-26
fangjack 2020-06-25
andrewwf 2020-06-16
qyf 2020-06-14
荒乱的没日没夜 2020-06-14