子沐带你用scrapy来一波东方购物的商品爬取之首页数据爬取
一、准备
1.什么数据是我们需要的(爬虫爬什么)
2.站点是否具备可爬取(防护等级)(数据具备统一表象)
3.数据存储形式
4.如何获取更多量的数据(同类型的数据)
5.去重机制
二、爬虫设计思路
首页数据链接分为两部分
(1)分类商品列表链接,提交给2进行处理
(2)首页商品详细页面链接,提交给3进行处理
2.分类商品获取详细页面链接
(1)商品详细页面链接,提交给3进行处理
(2) 分页机制,获取下一页的链接。
3.商品详细数据获取
(1)商品名称
(2)商品编号
(3)商品价格
(4)商品评价分数
(5)商品型号
(6)产地
获取评价数据,提交给4进行处理
获取更多详细商品数据链接,提交给3做处理,即自身方法。
4.商品评价(文本分析)
抓取评价数据,包含评分、评价描述。然后后续可以做文本分析。
三、项目操作命令
1.创建项目
scrapy startproject ocj
2.进入项目
cd ocj
3.创建爬虫
scrapy genspider ocjgood www.ocj.com.cn
4.运行爬虫
scrapy crawl ocjgood
四、首页数据爬取
(1)分类链接获取
选择一个具体的分类,点击右键,检查元素
查看详细的HTML结构。
通过上述内容,我们能发现有这么一个规律,是什么呢?亲爱的小伙伴们你们发现了吗?
那么就是所有的分类链接(a标签)外面都会有一个div,并且div的class为
但是我们发现页面里的分类链接,有些是不完整的,什么叫不完整,那就是类似于酱紫的。
怎么办呢?当然是补充链接啦!如此我们就能写一段代码了。
完整的代码,加群获取哟,我在群里等你们的到来。
(2)首页商品详细页面链接获取
与上面的操作同理,这里就不做太详细的解释了。
如图所示,首页商品有很多,存在链接的分别是图片和标题,那么问题来了,我们应该用哪个链接的。通过对于页面的html分析,发现一个问题就是,那就是类似于左侧的大图。
他的标题是没有链接,但是他的图片还是有链接。如此我们是不是就应该用图片里的链接。
这也结合上面的分析,再写一段代码,实现爬取。
完整的代码,加群获取哟,我在群里等你们的到来。
如此,我们就写完了首页的爬取。那么后面的,期待下一次哟,表着急。