Scrapy框架(一)

andrewwf

2019-12-22

Scrapy框架(一)

国内镜像源：

阿里云 http://mirrors.aliyun.com/pypi/simple/ 中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ 豆瓣(douban) http://pypi.doubanio.com/simple/ 清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/ 中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/

简介：

requests 虽然优雅强大，但它不是并发的，requests.get()处于阻塞状态，等待响应数据接受完成；如果要实现多线程，需要我们手动写多线程。

scrapy框架自带并发（默认16个线程）去重调度；Scrapy使用了Twisted 异步网络库来处理网络通讯。

scrapy框架是用Twisted编写的，Twisted是一个流行的事件驱动的Python网络框架。它使用非阻塞（也成为异步）代码实现并发。

安装

windows安装

 # cmd命令 pip install scrapy -i https://pypi.doubanio.com/simple ? python -m pip install scrapy    # 如果报错用这个

如果失败(是因为scrapy是依赖Twisted的，而twisted需要c++的环境)：

在下载跟你python版本对应的版本，然后

 cd D:\QMDownload # cd到你刚才下载的文件的路径，再用下面命令安装 Twisted的文件 ? pip install Twisted-19.7.0-cp36-cp36m-win_amd64.whl

Ubantu安装:

 # 首先安装依赖库 sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev ? # 如果你想在python3上安装scrapy，你还需要Python3的开发头文件： sudo apt-get install python3-dev ? # 最后在virtualenv中，你可以使用pip安装Scrapy pip install scrapy[==1.6.0] -i https://pypi.tuna.tsinghua.edu.cn/simple # 清华源

基本使用

单个文件方式运行

 # !/usr/bin/env python # -*- coding: utf-8 -*- # @File    : demo.py import os import scrapy ? class MySpider(scrapy.Spider):     name = ‘spider1‘    # 爬虫名          # 初始化地址， 不会考虑域名范围的     start_urls = [‘https://httpbin.org/get‘]        # 启动时Request会自动第一个访问该url          def parse(self, response):         """处理response对象的方法"""         print(response.text, ‘======demo演示=====‘)          # 运行: cd 到该文件所在路径 scrapy runspider demo.py    # 其实命令运行还是调用了框架的依赖(调度器)

项目方式

创建项目

 $ scrapy startproject project_name $ tree > dir           # 同linux的 ls 查看当前路径下文件

创建爬虫文件

 $ cd project_name $ scrapy genspider spider_name website_domain

运行爬虫

 $ scrapy crawl spider_name      # 运行爬虫项目；在项目根目录下运行（即配置文件所在路径） ? $ scrapy runspider spider_file  # 运行爬虫文件; 要在爬虫文件所在的路径下运行该命令

查看其他：

 $ scrapy list ? # 查看可以使用的template scrapy genspider -l # 查看template 的内容 scrapy genspider -d basic ? # 检查spider scrapy check -l scrapy check ? # 查看页面返回结果 scrapy fetch --nolog --headers https://www.danke.com/room/bj ? # 用浏览器打开页面 scrapy view https://www.danke.com/room/bj ? # 命令行执行scrapy scrapy shell https://www.danke.com/room/bj ? # 对url进行分析 scrapy parse <url> [options]

目录介绍

scrapy.cfg : 项目的配置文件
myscrapy：项目
myscrapy/items.py:项目使用的item文件
myscrapy/pipelines.py: 项目中的pipelines文件.
myscrapy/settings.py: 项目的设置文件.
myscrapy/spiders/: 放置spider代码的目录.

scrapy 组件

组件	解释	功能/作用
Spiders	爬虫程序	处理response对象，解析响应、提取需要的数据；并将需要跟进的URL提交给引擎
Engine	引擎	负责不同组件之间的通信、数据传递
Scheduler	调度器	接收Request请求，整理排队，加入队列
Downloader	下载器	负责引擎发送过来的Request请求获取web页面的数据，进行下载
Item pipelines	管道	负责spiders返回的数据，对其处理；进行持久化存储（写入本地or数据库）
SpiderMiddleware	爬虫中间件	爬虫中间件是位于引擎和爬虫之间的特定的钩子，能够处理传入的响应和传递出去的item和请求。
DownloaderMiddleware	下载中间件	下载中间件是位于引擎和下载器之间的特定的钩子，它们处理从引擎传递到下载器的请求，以及下载器传递到引擎的响应。

运行流程

数据流

上图显示了Scrapy框架的体系结构及其组件，以及系统内部发生的数据流（由红色的箭头显示。）

Scrapy中的数据流由执行引擎控制,流程如下：

1.首先从爬虫获取初始的请求交给引擎

2.将请求放入调度模块，然后获取下一个需要爬取的请求

3.调度模块返回下一个需要爬取的请求给引擎

4.引擎将请求发送给下载器，依次穿过所有的下载中间件

5.一旦页面下载完成，下载器会返回一个响应包含了页面数据，然后再依次穿过所有的下载中间件。

6.引擎从下载器接收到响应，然后发送给爬虫进行解析，依次穿过所有的爬虫中间件

7.爬虫处理接收到的响应，然后解析出item和生成新的请求，并发送给引擎

8.引擎将已经处理好的item发送给管道组件，将生成好的新的请求发送给调度模块，并请求下一个请求

9.该过程重复，直到调度程序不再有请求为止。

Telent

使用telent终端访问scrapy

# 默认监听本地的6023端口
telnet localhost 6023

快捷名称	描述
`crawler()`	Scrapy Crawler (`scrapy.crawler.Crawler` 对象)
`engine()`	Crawler.engine属性
`spider()`	当前激活的爬虫(spider)
`slot()`	the engine slot
`extensions()`	扩展管理器(manager) (Crawler.extensions属性)
`stats()`	状态收集器 (Crawler.stats属性)
`settings()`	Scrapy设置(setting)对象 (Crawler.settings属性)
`est()`	打印引擎状态的报告
`prefs()`	针对内存调试 (参考调试内存溢出)
`p()`	pprint.pprint 函数的简写
`hpy()`	针对内存调试

 # 暂停爬虫 telnet localhost 6023 >>> engine.pause() # 恢复爬虫 >>> engine.unpause() # 停止爬虫 >>> engine.stop()

Setting 配置

 # 设置 telnet 的端口 TELNETCONSOLE_PORT = [6023, 6073] # 监听的地址 TELNETCONSOLE_HOST = ‘127.0.0.1‘

scrapy 框架

andrewwf

0 关注 0 粉丝 0 动态

关注关注

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

今天小编给大家详细的讲解一下Scrapy爬虫框架，希望对大家的学习有帮助。Scrapy是一个使用Python编程语言编写的爬虫框架，任何人都可以根据自己的需求进行修改，并且使用起来非常的方便。它可以应用在数据采集、数据挖掘、网络异常用户检测、存储数据等方面

CycloneKid 2020-10-27

如何利用Scrapy爬虫框架抓取网页全部文章信息（上篇）

首先我们理一下爬取思路，大致思想是：当获取到第一个页面的URL之后，尔后将第二页的URL发送给Scrapy，让Scrapy去自动下载该网页的信息，之后通过第二页的URL继续获取第三页的URL，由于每一页的网页结构是一致的，所以通过这种方式如此反复进行迭代，

andrewwf 2020-11-11

一分钟搞定Scrapy分布式爬虫、队列和布隆过滤器

你知道最快的方法是什么吗？一分钟真的能开发好或者修改出一个分布式爬虫吗？话不多说，先让我们看看怎么实践，再详细聊聊细节。如果你没有所需要的运行条件，你可以启动两个 Docker 镜像进行测试 :. 如果你有一个现成的爬虫，可以跳过这个 Step，直接到

Arvinzx 2020-10-28

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（下篇）

前几天给大家分享了在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇），没来得及上车的小伙伴可以戳进去看看，今天继续上篇的内容往下进行。至此，关于Xpath表达式的具体应用教程先告一段落。

paleyellow 2020-10-25

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇）

上一篇文章我们讲述了网页结构和Xpath表达式语法知识，感兴趣的小伙伴可以戳这篇文章：网页结构的简介和Xpath语法的入门教程。我们了解到Xpath表达式最好是通过自己进行网页分析和针对性的选取唯一性的标签进行定位，可以提高提取效率，而且还不容易出错。

baifanwudi 2020-10-25

手把手教你进行Scrapy中item类的实例化操作

首先去parse_detail函数下对其进行实例化，实例化的方法也十分简单，如下图所示。其中，目标字段可以参考items.py中定义的item，这样可以加快填充的速度。

heyboz 2020-10-21

如何改造 Scrapy 从而实现多网站大规模爬取？

Scrapy 框架默认是用来开发定向爬虫的。一般情况下，在 spiders 文件夹下面的一个.py 文件对应了一个网站的爬取。但还有另外一种爬虫，它不会拘泥于提取页面上的特定文字，而是关注如何并行爬取非常多的网站。这种爬虫，一般是从若干个种子网址开始爬。但

wumxiaozhu 2020-10-16

二十六、Scrapy自定义命令

from scrapy.commands import ScrapyCommand??class Command(ScrapyCommand): requires_project = True?

ZHANGRENXIANG00 2020-07-27

scrapy 管理部署的爬虫项目的python类

还有部分api接口没有添加进来,可以参照官方的文档添加.

hilary0 2020-07-05

分布式爬虫部署基于scrapy和scrapy-redis

安装一个scrapy-redis的组件。原生的scrapy是不可以实现分布式爬虫，必须要让scrapy结合着scrapy-redis组件一起实现分布式。scrapy-redis组件的作用可以给原生的scrapy框架提供可以被共享的管道和调度器。结合配置文件

zhangll00 2020-07-05

8_3 scrapy模拟登录人人网

在这个方法中发送post请求，没有重写这个方法基类Spider中的方法 start_request()默认是发送get请求。

javaraylu 2020-06-28

Python爬虫 - scrapy

start_requests:可以将遍历start_urls列表，将每一个列表元素进行get请求的发送。def file_path:指定文件路径。# Don‘t forget to add your pipeline to the ITEM_PIPELIN

ZHANGRENXIANG00 2020-06-28

Scrapy爬虫

二、Scrapy爬虫框架结构

ZHANGRENXIANG00 2020-06-27

用scrapy爬取图片

detail_list = response.xpath(‘//*[@id="main"]/div[3]/ul/li/a/@href‘).extract(). yield scrapy.Request(detail_url, callb

Catastrophe 2020-06-26

scrapy基本知识

Scrapy爬虫框架主要由5个部分组成，分别是：Scrapy Engine，Scheduler（调度器），Downloader（下载器），Spiders（蜘蛛），Item Pipeline。爬取过程是Scrapy引擎发送请求，之后调度器把初始URL交给下载

Catastrophe 2020-06-26

Python爬虫 - scrapy框架的基本操作

scrapy异步的爬虫框架。c. 进入下载目录，执行 pip3 install Twisted?只可以将parse方法的返回值存储到指定后缀的文本文件中。# #xpath在进行数据提取时，返回的不再是字符串而是一个Selector对象，想要

fangjack 2020-06-25

十八、scrapy内置媒体（图片和文件）下载方式

　　MediaPipeline会为当前安排好的要下载的图片保留一个内部队列，并将那些到达的包含相同图片的项目连接到该队列中，避免多次下载几个item共享的同一图片。　　3、当item进入filespipeline,file_urls组内的url将被Scra

andrewwf 2020-06-16

Scrapy爬虫

　　Scrapy是一个常用的爬虫框架，可以提升爬虫的效率，从而更好的实现爬虫。Scrapy是一个为了抓取网页数据、提取结构性数据而编写的应用框架，该框架是封装的，包含request、下载器、解析器和twisted等。定义一个item容器，item容器是存储

qyf 2020-06-14

Python Scrapy图片爬取原理及代码实例

在管道文件对图片进行下载和持久化存储。配置文件要增加IMAGES_STORE = './imgsLib'表明图片存放的路径。#对某一个媒体资源进行请求发送。#item就是接收到的spider提交过来的item. #制定媒体数据存储的名称。#将item传递给

荒乱的没日没夜 2020-06-14

scrapy 详解

　　Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量的代码，就能够快速的抓取。Scrapy 使用了Twisted[‘tw?st?d]异步网络框架。def parse: # 数据提取方法，处理start_url地址中的

MiracleZhao 2020-06-13

Scrapy框架(一)