Python Scrapy图片爬取原理及代码实例

荒乱的没日没夜

2020-06-14

1.在爬虫文件中只需要解析提取出图片地址，然后将地址提交给管道

在管道文件对图片进行下载和持久化存储

class ImgSpider(scrapy.Spider):
  name = 'img'
  # allowed_domains = ['www.xxx.com']
  start_urls = ['http://www.521609.com/daxuemeinv/']
  url = 'http://www.521609.com/daxuemeinv/list8%d.html'
  pageNum = 1
  def parse(self, response):
    li_list = response.xpath('//*[@id="content"]/div[2]/div[2]/ul/li')
    for li in li_list:
      img_src = 'http://www.521609.com'+li.xpath('./a[1]/img/@src').extract_first()
      item = ImgproItem()
      item['src'] = img_src

      yield item

2.配置文件修改

配置文件要增加IMAGES_STORE = './imgsLib'表明图片存放的路径

3.管道类的修改

原本管道类继承的object，处理item对象使用时process_item方法，该方法不能发送请求，要想对图片地址发送请求，需要继承ImagesPipeline类，然后重写该类中的三个方法:get_media_requests，file_path，item_completed

from scrapy.pipelines.images import ImagesPipeline
import scrapy

class ImgproPipeline(ImagesPipeline):

  #对某一个媒体资源进行请求发送
  #item就是接收到的spider提交过来的item
  def get_media_requests(self, item, info):
    yield scrapy.Request(item['src'])

  #制定媒体数据存储的名称
  def file_path(self, request, response=None, info=None):
    name = request.url.split('/')[-1]
    print('正在下载：',name)
    return name

  #将item传递给下一个即将给执行的管道类
  def item_completed(self, results, item, info):
    return item

python实例 python继承 scrapy python

荒乱的没日没夜

0 关注 0 粉丝 0 动态

相关推荐

三分钟看懂Python和Java的区别

随着人工智能的火爆，Python和Java一直在各种流行编程语言中名列前茅。其实Java和Python有些相似，因为很多编程语言之间是互通的。Java现在还是第一，不知道Python未来会不会超越Java，但是现在有些人不明白Python和Java的区别。

weiiron 2020-08-17

python之面向对象4

#:创建我们的类‘‘‘类的作用描述一个人的形象‘‘‘class persion: def __init__: self.name = name self.age = age self.rmb = rmb

生物信息学 2020-06-22

Python-面向对象

Python从设计之初就已经是一门面向对象的语言，正因为如此，在Python中创建一个类和对象是很容易的。本章节我们将详细介绍Python的面向对象编程。如果你以前没有接触过面向对象的编程语言，那你可能需要先了解一些面向对象语言的一些基本特征，在头脑里头形

adamlovejw 2020-06-11

python基础 13 类命名空间于对象、实例的命名空间，组合方法

在obj.name会先从 obj 自己的名称空间里找name，找不到则去类中找，类也找不到就找父类...最后都找不到就抛出异常。self.name = name # 每一只狗都有自己的昵称;# 狗可以咬人，这里的狗也是一个对象。self.weapon =

bcbeer 2020-05-02

Python初学者请注意！别这样直接运行python命令，否则电脑等于“裸奔”

Python已经成为全球最受欢迎的编程语言之一。原因当然是Python简明易用的脚本语法，只需把一段程序放入.py文件中，就能快速运行。而且Python语言很容易上手模块。这样设计的好处是，初学者能够非常方便地执行命令。但是对攻击者来说，这等于是为恶意程序

FlySky 2020-11-02

Python快速上手爬虫的7大技巧

Python应用最多的场景还是Web快速开发、爬虫、自动化运维。爬虫在开发过程中也有很多复用的过程，这里总结一下，以后也能省些事情。关键在于CookieJar()，它用于管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请

逍遥友 2020-10-26

让我们来谈谈python中的prettyprint和pprint

当你开始学习python编程的时候，你做的第一件事是什么?相信我们都已经通过“Hello World”程序开始了我们的python之旅。在python中，它可以在一行中完成：。但是，在使用print()函数打印字典、列表或任何其他复杂数据类型时，您是否遇到

taiyangshenniao 2020-10-05

Python中的高阶概念属性：五个你应该搞明白的知识点

在现代编程世界中，面向对象编程语言在改变软件开发中的设计和实现模式方面发挥了进化作用。作为OOP家族的重要成员，Python在过去10年左右逐渐流行起来。与其他OOP语言一样，Python围绕大量不同的对象操作其数据，包括模块、类和函数。在Python中，

flycony 2020-09-23

Python进阶版：定义类时应用的9种最佳做法

本文转载自公众号“读芯术”。作为一种OOP语言，Python通过支持以对象为主的各种功能来处理数据和功能。尽管可以使用内置数据类型，而且无需创建任何自定义类就能编写一组函数，但随着项目范围的扩大，代码可能会越来越难维护。这些单独代码部分的主题并不相同，尽管

jacktangj 2020-09-18

逐步展开Python详细教学—共享Python经验

在我们开始正文之前，我想知道您为什么学习Python。通过评论来分享你的学习经验和学习过程。我们会在内容中逐步针对读者进行Python讲解。Python编程语言是一种面向对象的语言，这意味着它可以模拟真实世界的实体。Python编程语言诞生于20世纪80年

YENCSDN 2020-09-15

通过代码实例了解Python sys模块

# fetch sys.argv[1] but without the first two characters. This program prints files to the standard output.这个程序用来模仿linux中的cat命令。

lsjweiyi 2020-09-14

基于python实现简单C/S模式代码实例

C/S模式就是指客bai户端/服务器模式，du是计算机软件协同工作的一种模式。由于Web浏览器的兴起，B/S模式逐步取代了daoC/S模式，被更广泛地应用。PC机的资源没有大型、中型甚至小型主机丰富，但将多台PC机联成网，必然会增加资源含量，各个用户都在网

digwtx 2020-09-14

基于python实现简单网页服务器代码实例

# create server, ip is empty, port is 8000, handle function is application. 它实现了wsgi接口，我们只需要定一个wsgi处理函数来处理得到的请求就可以了。用python来实现这些

拾毅者 2020-09-14

python输入中文的实例方法

方法二：unicode()转码，声明是gbk，对文字打印指明是utf-8即可，不强调是gbk编码。

AwesomeCyber 2020-09-14

python文件排序的方法总结

在python环境中提供两种排序方案：用库函数sorted()对字符串排序，它的对象是字符；用函数sort()对数字排序，它的对象是数字，如果读取文件的话，需要进行处理。从图片可以清晰的看出，文件名是按字符排序的。可以看出，文件名是按数字排序的；顺便提下，

zlxcsdn 2020-09-13

Python代码注释规范代码实例解析

注释就是对代码的解释和说明，其目的是让人们能够更加轻松地了解代码。注释是编写程序时，写程序的人给一个语句、程序段、函数等的解释或提示，能提高程序代码的可读性。在有处理逻辑的代码中，源程序有效注释量必须在20％以上。单行注释可以作为单独的一行放在被注释代码行

amazingbo 2020-08-16

Python编写memcached启动脚本代码实例

memcached是一套分布式的高速缓存系统，由LiveJournal的Brad Fitzpatrick开发，但被许多网站使用。这是一套开放源代码软件，以BSD license授权发布。memcached缺乏认证以及安全管制，这代表应该将memcached

郗瑞强 2020-08-16

Python读取xlsx数据生成图标代码实例

labels=[item[0] for item in lst_total] #使用列表生成式，得到饼图的标签。pit.rcParams['font.family']=['SimHei'] #单独的表格乱码的处理方式

lispython 2020-08-16

大数据获取案例：Python网络爬虫实例

网络爬虫，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。用来获取新冠肺炎的实时数据。使用的工具PyCharm新建Python文件，命名为get_data使用爬虫最常用的request模

fengling 2020-08-15

盘点 Python 10 大常用数据结构（上篇）

如果你还处于Python入门阶段，通常只需掌握list、tuple、set、dict这类数据结构，做到灵活使用即可。因为相比于list, tuple实例更加节省内存，这点尤其重要。并且set内允许增删元素，且效率很高。但是值得注意，dict占用字节数是li

xiesheng 2020-08-02

荒乱的没日没夜

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号