Scrapy安装和简单使用

Catastrophe

2019-11-09

关注关注

模块安装

Windows

安装scrapy 需要安装依赖环境twisted，twisted又需要安装C++的依赖环境

pip install scrapy 时如果出现twisted错误

在https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载对应的Twisted的版本文件（cp36代表python3.6版本）

Scrapy安装和简单使用

再cmd进入到Twisted所在的目录执行pip install 加Twisted文件名

最后执行pip install scrapy

Ubuntu安装注意事项

不要使用 python-scrapyUbuntu提供的软件包，它们通常太旧而且速度慢，无法赶上最新的Scrapy

要在Ubuntu（或基于Ubuntu）系统上安装scrapy，您需要安装这些依赖项

sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev

如果你想在python3上安装scrapy，你还需要Python3的开发头文件

sudo apt-get install python3-dev

在virtualenv中，你可以使用pip安装Scrapy：pip install scrapy

简单使用

新建项目

scrapy startproject project_name

编写爬虫

第一种方式：创建单个文件

创建一个类，它必须继承scrapy.Spider类，需要定义三个属性

name: spider的名字，必须且唯一

start_urls: 初始的url列表

parse(self, response) 方法：每个初始url完成之后被调用

这个parse函数要完成两个功能

1、解析响应，封装成item对象并返回这个对象

2、提取新的需要下载的url，创建新的request，并返回它

单个文件的运行命令 scrapy runspider demo.py

第二种方式：通过命令创建

scrapy genspider 爬虫名域名

运行爬虫

scrapy list 查看可以运行的爬虫文件

scrapy crawl 爬虫名（name属性的值）

追踪链接

创建一个类变量page_num用来记录当前爬取到的页码，在parse函数中提取信息，然后通过爬虫对象给变量page__num自加1，构造下一页的url，然后创建scrapy.Request对象并返回

如果response中提取不到信息，我们判断已经到了最后一页，parse函数直接return结束

定义item管道

parse函数在解析出我们需要的信息之后，可以将这些信息打包成一个字典对象或scray.Item对象，然后返回

这个对象会被发送到item管道，该管道会通过顺序执行几个组件处理它。每个item管道组件是一个实现简单方法的Python类

它们收到一个item并对其执行操作，同时决定该item是否应该继续通过管道或者被丢弃并且不再处理

item管道的典型用途：

清理HTML数据　　

验证已删除的数据（检查项目是否包含某些字段）　　

检查重复项（并删除它们）　　

将已爬取的item进行数据持久化

编写管道类

#在爬虫启动时执行　　　　　　　　　　　　　def open_ spider(self, spider)

#在爬虫关闭时，执行　　　　　　　　　　　　def close_ spider(self, spider)

#对传递过来的item处理并return处理完的item　　def process_ item(self, item, spider)

要激活这个管道组件，必须将其添加到ITEM_PIPELINES设置中,在settings文件中设置

在此设置中为类分配的整数值决定了它们运行的顺序：按照从较低值到较高值的顺序进行

定义item

Scrapy提供了Item类

编辑项目目录下的items.py文件

在爬虫中导入我们定义的Item类，实例化后用它进行数据结构化

运行流程

数据流

Scrapy安装和简单使用

首先从爬虫获取初始的请求

将请求放入调度模块，然后获取下一个需要爬取的请求

调度模块返回下一个需要爬取的请求给引擎

引擎将请求发送给下载器，依次穿过所有的下载中间件

一旦页面下载完成，下载器会返回一个响应包含了页面数据，然后再依次穿过所有的下载中间件

引擎从下载器接收到响应，然后发送给爬虫进行解析，依次穿过所有的爬虫中间件

爬虫处理接收到的响应，然后解析出item和生成新的请求，并发送给引擎

引擎将已经处理好的item发送给管道组件，将生成好的新的请求发送给调度模块，并请求下一个请求

该过程重复，直到调度程序不再有请求为止

组件

spiders 爬虫程序　　　　处理response 提取需要的数据或其他要抓取的请求

engine 引擎　　　　　　引擎负责控制系统所有组件之间的数据流，并在发生某些操作时触发事件

scheduler调度器　　　　接收request请求排队加入队列

download下载器　　　　负责引擎发送过来的request请求进行下载

item pipelines 管道　　　负责spider返回的数据进行存储

中间件

下载中间件

下载中间件是位于引擎和下载器之间的特定的钩子，它们处理从引擎传递到下载器的请求，以及下载器传递到引擎的响应

使用Downloader中间件执行以下操作

在请求发送到下载程序之前处理请求（即在scrapy将请求发送到网站之前）

在响应发送给爬虫之前

直接发送新的请求，而不是将收到的响应传递给蜘蛛

将响应传递给爬行器而不获取web页面

默默的放弃一些请求

爬虫中间件

爬虫中间件是位于引擎和爬虫之间的特定的钩子，能够处理传入的响应和传递出去的item和请求

使用爬虫中间件执行以下操作

处理爬虫回调之后的请求或item

处理start_requests

处理爬虫异常

根据响应内容调用errback而不是回调请求

事件驱动的网络

scrapy是用Twisted编写的，Twisted是一个流行的事件驱动的Python网络框架。它使用非阻塞（也称为异步）代码实现并发

scrapy install

Catastrophe

0 关注 0 粉丝 0 动态

关注关注

如何利用Scrapy爬虫框架抓取网页全部文章信息（上篇）

首先我们理一下爬取思路，大致思想是：当获取到第一个页面的URL之后，尔后将第二页的URL发送给Scrapy，让Scrapy去自动下载该网页的信息，之后通过第二页的URL继续获取第三页的URL，由于每一页的网页结构是一致的，所以通过这种方式如此反复进行迭代，

andrewwf 2020-11-11

一分钟搞定Scrapy分布式爬虫、队列和布隆过滤器

你知道最快的方法是什么吗？一分钟真的能开发好或者修改出一个分布式爬虫吗？话不多说，先让我们看看怎么实践，再详细聊聊细节。如果你没有所需要的运行条件，你可以启动两个 Docker 镜像进行测试 :. 如果你有一个现成的爬虫，可以跳过这个 Step，直接到

Arvinzx 2020-10-28

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

今天小编给大家详细的讲解一下Scrapy爬虫框架，希望对大家的学习有帮助。Scrapy是一个使用Python编程语言编写的爬虫框架，任何人都可以根据自己的需求进行修改，并且使用起来非常的方便。它可以应用在数据采集、数据挖掘、网络异常用户检测、存储数据等方面

CycloneKid 2020-10-27

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（下篇）

前几天给大家分享了在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇），没来得及上车的小伙伴可以戳进去看看，今天继续上篇的内容往下进行。至此，关于Xpath表达式的具体应用教程先告一段落。

paleyellow 2020-10-25

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇）

上一篇文章我们讲述了网页结构和Xpath表达式语法知识，感兴趣的小伙伴可以戳这篇文章：网页结构的简介和Xpath语法的入门教程。我们了解到Xpath表达式最好是通过自己进行网页分析和针对性的选取唯一性的标签进行定位，可以提高提取效率，而且还不容易出错。

baifanwudi 2020-10-25

手把手教你进行Scrapy中item类的实例化操作

首先去parse_detail函数下对其进行实例化，实例化的方法也十分简单，如下图所示。其中，目标字段可以参考items.py中定义的item，这样可以加快填充的速度。

heyboz 2020-10-21

如何改造 Scrapy 从而实现多网站大规模爬取？

Scrapy 框架默认是用来开发定向爬虫的。一般情况下，在 spiders 文件夹下面的一个.py 文件对应了一个网站的爬取。但还有另外一种爬虫，它不会拘泥于提取页面上的特定文字，而是关注如何并行爬取非常多的网站。这种爬虫，一般是从若干个种子网址开始爬。但

wumxiaozhu 2020-10-16

二十六、Scrapy自定义命令

from scrapy.commands import ScrapyCommand??class Command(ScrapyCommand): requires_project = True?

ZHANGRENXIANG00 2020-07-27

scrapy 管理部署的爬虫项目的python类

还有部分api接口没有添加进来,可以参照官方的文档添加.

hilary0 2020-07-05

分布式爬虫部署基于scrapy和scrapy-redis

安装一个scrapy-redis的组件。原生的scrapy是不可以实现分布式爬虫，必须要让scrapy结合着scrapy-redis组件一起实现分布式。scrapy-redis组件的作用可以给原生的scrapy框架提供可以被共享的管道和调度器。结合配置文件

zhangll00 2020-07-05

8_3 scrapy模拟登录人人网

在这个方法中发送post请求，没有重写这个方法基类Spider中的方法 start_request()默认是发送get请求。

javaraylu 2020-06-28

Python爬虫 - scrapy

start_requests:可以将遍历start_urls列表，将每一个列表元素进行get请求的发送。def file_path:指定文件路径。# Don‘t forget to add your pipeline to the ITEM_PIPELIN

ZHANGRENXIANG00 2020-06-28

Scrapy爬虫

二、Scrapy爬虫框架结构

ZHANGRENXIANG00 2020-06-27

用scrapy爬取图片

detail_list = response.xpath(‘//*[@id="main"]/div[3]/ul/li/a/@href‘).extract(). yield scrapy.Request(detail_url, callb

Catastrophe 2020-06-26

scrapy基本知识

Scrapy爬虫框架主要由5个部分组成，分别是：Scrapy Engine，Scheduler（调度器），Downloader（下载器），Spiders（蜘蛛），Item Pipeline。爬取过程是Scrapy引擎发送请求，之后调度器把初始URL交给下载

Catastrophe 2020-06-26

Python爬虫 - scrapy框架的基本操作

scrapy异步的爬虫框架。c. 进入下载目录，执行 pip3 install Twisted?只可以将parse方法的返回值存储到指定后缀的文本文件中。# #xpath在进行数据提取时，返回的不再是字符串而是一个Selector对象，想要

fangjack 2020-06-25

十八、scrapy内置媒体（图片和文件）下载方式

　　MediaPipeline会为当前安排好的要下载的图片保留一个内部队列，并将那些到达的包含相同图片的项目连接到该队列中，避免多次下载几个item共享的同一图片。　　3、当item进入filespipeline,file_urls组内的url将被Scra

andrewwf 2020-06-16

Scrapy爬虫

　　Scrapy是一个常用的爬虫框架，可以提升爬虫的效率，从而更好的实现爬虫。Scrapy是一个为了抓取网页数据、提取结构性数据而编写的应用框架，该框架是封装的，包含request、下载器、解析器和twisted等。定义一个item容器，item容器是存储

qyf 2020-06-14

Python Scrapy图片爬取原理及代码实例

在管道文件对图片进行下载和持久化存储。配置文件要增加IMAGES_STORE = './imgsLib'表明图片存放的路径。#对某一个媒体资源进行请求发送。#item就是接收到的spider提交过来的item. #制定媒体数据存储的名称。#将item传递给

荒乱的没日没夜 2020-06-14

scrapy 详解

　　Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量的代码，就能够快速的抓取。Scrapy 使用了Twisted[‘tw?st?d]异步网络框架。def parse: # 数据提取方法，处理start_url地址中的

MiracleZhao 2020-06-13

安科网

Scrapy安装和简单使用

Catastrophe

Catastrophe

相关推荐

如何利用Scrapy爬虫框架抓取网页全部文章信息（上篇）

一分钟搞定Scrapy分布式爬虫、队列和布隆过滤器

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（下篇）

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇）

手把手教你进行Scrapy中item类的实例化操作

如何改造 Scrapy 从而实现多网站大规模爬取？

二十六、Scrapy自定义命令

scrapy 管理部署的爬虫项目的python类

分布式爬虫部署基于scrapy和scrapy-redis

8_3 scrapy模拟登录人人网

Python爬虫 - scrapy

Scrapy爬虫

用scrapy爬取图片

scrapy基本知识

Python爬虫 - scrapy框架的基本操作

十八、scrapy内置媒体（图片和文件）下载方式

Scrapy爬虫

Python Scrapy图片爬取原理及代码实例

scrapy 详解

Catastrophe