子沐带你用scrapy来一波东方购物的商品爬取之首页数据爬取

heyboz

2017-04-18

一、准备

1.什么数据是我们需要的（爬虫爬什么）

2.站点是否具备可爬取（防护等级）（数据具备统一表象）

3.数据存储形式

4.如何获取更多量的数据（同类型的数据）

5.去重机制

二、爬虫设计思路

首页数据链接分为两部分

(1)分类商品列表链接，提交给2进行处理

(2)首页商品详细页面链接，提交给3进行处理

2.分类商品获取详细页面链接

(1)商品详细页面链接，提交给3进行处理

(2) 分页机制，获取下一页的链接。

3.商品详细数据获取

（1）商品名称

（2）商品编号

（3）商品价格

（4）商品评价分数

（5）商品型号

（6）产地

获取评价数据，提交给4进行处理

获取更多详细商品数据链接，提交给3做处理，即自身方法。

4.商品评价（文本分析）

抓取评价数据，包含评分、评价描述。然后后续可以做文本分析。

三、项目操作命令

1.创建项目

scrapy startproject ocj

2.进入项目

cd ocj

3.创建爬虫

scrapy genspider ocjgood www.ocj.com.cn

4.运行爬虫

scrapy crawl ocjgood

四、首页数据爬取

（1）分类链接获取

子沐带你用scrapy来一波东方购物的商品爬取之首页数据爬取

选择一个具体的分类，点击右键，检查元素

子沐带你用scrapy来一波东方购物的商品爬取之首页数据爬取

查看详细的HTML结构。

子沐带你用scrapy来一波东方购物的商品爬取之首页数据爬取

通过上述内容，我们能发现有这么一个规律，是什么呢？亲爱的小伙伴们你们发现了吗？

那么就是所有的分类链接（a标签）外面都会有一个div，并且div的class为

子沐带你用scrapy来一波东方购物的商品爬取之首页数据爬取

但是我们发现页面里的分类链接，有些是不完整的，什么叫不完整，那就是类似于酱紫的。

子沐带你用scrapy来一波东方购物的商品爬取之首页数据爬取

怎么办呢？当然是补充链接啦！如此我们就能写一段代码了。

子沐带你用scrapy来一波东方购物的商品爬取之首页数据爬取

完整的代码，加群获取哟，我在群里等你们的到来。

子沐带你用scrapy来一波东方购物的商品爬取之首页数据爬取

（2）首页商品详细页面链接获取

与上面的操作同理，这里就不做太详细的解释了。

子沐带你用scrapy来一波东方购物的商品爬取之首页数据爬取

如图所示，首页商品有很多，存在链接的分别是图片和标题，那么问题来了，我们应该用哪个链接的。通过对于页面的html分析，发现一个问题就是，那就是类似于左侧的大图。

子沐带你用scrapy来一波东方购物的商品爬取之首页数据爬取

他的标题是没有链接，但是他的图片还是有链接。如此我们是不是就应该用图片里的链接。

这也结合上面的分析，再写一段代码，实现爬取。

子沐带你用scrapy来一波东方购物的商品爬取之首页数据爬取

完整的代码，加群获取哟，我在群里等你们的到来。

子沐带你用scrapy来一波东方购物的商品爬取之首页数据爬取

如此，我们就写完了首页的爬取。那么后面的，期待下一次哟，表着急。

视频加载中...

￥41.7

购买

heyboz

0 关注 0 粉丝 0 动态

相关推荐

如何利用Scrapy爬虫框架抓取网页全部文章信息（上篇）

首先我们理一下爬取思路，大致思想是：当获取到第一个页面的URL之后，尔后将第二页的URL发送给Scrapy，让Scrapy去自动下载该网页的信息，之后通过第二页的URL继续获取第三页的URL，由于每一页的网页结构是一致的，所以通过这种方式如此反复进行迭代，

andrewwf 2020-11-11

一分钟搞定Scrapy分布式爬虫、队列和布隆过滤器

你知道最快的方法是什么吗？一分钟真的能开发好或者修改出一个分布式爬虫吗？话不多说，先让我们看看怎么实践，再详细聊聊细节。如果你没有所需要的运行条件，你可以启动两个 Docker 镜像进行测试 :. 如果你有一个现成的爬虫，可以跳过这个 Step，直接到

Arvinzx 2020-10-28

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

今天小编给大家详细的讲解一下Scrapy爬虫框架，希望对大家的学习有帮助。Scrapy是一个使用Python编程语言编写的爬虫框架，任何人都可以根据自己的需求进行修改，并且使用起来非常的方便。它可以应用在数据采集、数据挖掘、网络异常用户检测、存储数据等方面

CycloneKid 2020-10-27

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（下篇）

前几天给大家分享了在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇），没来得及上车的小伙伴可以戳进去看看，今天继续上篇的内容往下进行。至此，关于Xpath表达式的具体应用教程先告一段落。

paleyellow 2020-10-25

在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（上篇）

上一篇文章我们讲述了网页结构和Xpath表达式语法知识，感兴趣的小伙伴可以戳这篇文章：网页结构的简介和Xpath语法的入门教程。我们了解到Xpath表达式最好是通过自己进行网页分析和针对性的选取唯一性的标签进行定位，可以提高提取效率，而且还不容易出错。

baifanwudi 2020-10-25

手把手教你进行Scrapy中item类的实例化操作

首先去parse_detail函数下对其进行实例化，实例化的方法也十分简单，如下图所示。其中，目标字段可以参考items.py中定义的item，这样可以加快填充的速度。

heyboz 2020-10-21

如何改造 Scrapy 从而实现多网站大规模爬取？

Scrapy 框架默认是用来开发定向爬虫的。一般情况下，在 spiders 文件夹下面的一个.py 文件对应了一个网站的爬取。但还有另外一种爬虫，它不会拘泥于提取页面上的特定文字，而是关注如何并行爬取非常多的网站。这种爬虫，一般是从若干个种子网址开始爬。但

wumxiaozhu 2020-10-16

二十六、Scrapy自定义命令

from scrapy.commands import ScrapyCommand??class Command(ScrapyCommand): requires_project = True?

ZHANGRENXIANG00 2020-07-27

scrapy 管理部署的爬虫项目的python类

还有部分api接口没有添加进来,可以参照官方的文档添加.

hilary0 2020-07-05

分布式爬虫部署基于scrapy和scrapy-redis

安装一个scrapy-redis的组件。原生的scrapy是不可以实现分布式爬虫，必须要让scrapy结合着scrapy-redis组件一起实现分布式。scrapy-redis组件的作用可以给原生的scrapy框架提供可以被共享的管道和调度器。结合配置文件

zhangll00 2020-07-05

8_3 scrapy模拟登录人人网

在这个方法中发送post请求，没有重写这个方法基类Spider中的方法 start_request()默认是发送get请求。

javaraylu 2020-06-28

Python爬虫 - scrapy

start_requests:可以将遍历start_urls列表，将每一个列表元素进行get请求的发送。def file_path:指定文件路径。# Don‘t forget to add your pipeline to the ITEM_PIPELIN

ZHANGRENXIANG00 2020-06-28

Scrapy爬虫

二、Scrapy爬虫框架结构

ZHANGRENXIANG00 2020-06-27

用scrapy爬取图片

detail_list = response.xpath(‘//*[@id="main"]/div[3]/ul/li/a/@href‘).extract(). yield scrapy.Request(detail_url, callb

Catastrophe 2020-06-26

scrapy基本知识

Scrapy爬虫框架主要由5个部分组成，分别是：Scrapy Engine，Scheduler（调度器），Downloader（下载器），Spiders（蜘蛛），Item Pipeline。爬取过程是Scrapy引擎发送请求，之后调度器把初始URL交给下载

Catastrophe 2020-06-26

Python爬虫 - scrapy框架的基本操作

scrapy异步的爬虫框架。c. 进入下载目录，执行 pip3 install Twisted?只可以将parse方法的返回值存储到指定后缀的文本文件中。# #xpath在进行数据提取时，返回的不再是字符串而是一个Selector对象，想要

fangjack 2020-06-25

十八、scrapy内置媒体（图片和文件）下载方式

　　MediaPipeline会为当前安排好的要下载的图片保留一个内部队列，并将那些到达的包含相同图片的项目连接到该队列中，避免多次下载几个item共享的同一图片。　　3、当item进入filespipeline,file_urls组内的url将被Scra

andrewwf 2020-06-16

Scrapy爬虫

　　Scrapy是一个常用的爬虫框架，可以提升爬虫的效率，从而更好的实现爬虫。Scrapy是一个为了抓取网页数据、提取结构性数据而编写的应用框架，该框架是封装的，包含request、下载器、解析器和twisted等。定义一个item容器，item容器是存储

qyf 2020-06-14

Python Scrapy图片爬取原理及代码实例

在管道文件对图片进行下载和持久化存储。配置文件要增加IMAGES_STORE = './imgsLib'表明图片存放的路径。#对某一个媒体资源进行请求发送。#item就是接收到的spider提交过来的item. #制定媒体数据存储的名称。#将item传递给

荒乱的没日没夜 2020-06-14

scrapy 详解

　　Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量的代码，就能够快速的抓取。Scrapy 使用了Twisted[‘tw?st?d]异步网络框架。def parse: # 数据提取方法，处理start_url地址中的

MiracleZhao 2020-06-13

heyboz

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号