利用Python爬虫商品最全信息,买不到不可能!(文末附赠教程)

爬虫虽然有趣,但是也是需要一定基础才能去爬取相关东西的。也是比较有趣的,小编敲代码敲的枯燥了,往往都会去爬些东西来消遣下,今天的爬虫讲的很全面也很细致,大家努力看,劲量都学点东西,

利用Python爬虫商品最全信息,买不到不可能!(文末附赠教程)

利用Python爬虫商品最全信息,买不到不可能!(文末附赠教程)

爬取这个商品名称,比如“手机”搜索结果下的每个商品的信息,存储到数据结构中,并能将其输出显示。

如下的输出形式:

利用Python爬虫商品最全信息,买不到不可能!(文末附赠教程)

接下来,就看我们如何一步步实现这个小爬虫的吧

利用Python爬虫商品最全信息,买不到不可能!(文末附赠教程)

很容易我们就可以发现,

利用Python爬虫商品最全信息,买不到不可能!(文末附赠教程)

我们再研究翻页处理:

第二页

利用Python爬虫商品最全信息,买不到不可能!(文末附赠教程)

第三页

利用Python爬虫商品最全信息,买不到不可能!(文末附赠教程)

我们可以发现,s参数指定了搜索页的跳转,每48条记录一次页面跳转。

有同学可能发现还会有其他很多的参数,这个我们先忽略,我们直接构造一个url,只包括搜索词和搜索页,看看能不能访问到正确页面:

比如

手机&s=48

我们将上述地址放到地址栏

利用Python爬虫商品最全信息,买不到不可能!(文末附赠教程)

发现可以正确访问,所以我们现在就已经知道了如何确定访问接口

设计程序结构

主要有三步

  • 步骤1:提交商品搜索请求,循环获取页面
  • 步骤2:对于每个页面,提取商品名称和价格信息
  • 步骤3:将信息输出到屏幕上

首先我们对于上面研究出的搜索接口给出基本的代码:

利用Python爬虫商品最全信息,买不到不可能!(文末附赠教程)

核心代码

这个爬虫最核心的地方就在于对商品信息的获取,我们首先分析页面的源代码,我们搜索第一个商品的名字

利用Python爬虫商品最全信息,买不到不可能!(文末附赠教程)

基本上所有商品的信息,名称,价格,月销量都在这段数据结构里显示,是嵌入在js代码里的,所以我们就无法用bs4库来提取。

但我们可以直接用re库,正则表达式提取。

因为我们可以发现,所有的商品名称都是

“title”:" "的格式,我们可以搜索确认一下:

利用Python爬虫商品最全信息,买不到不可能!(文末附赠教程)

image.png

我们搜索发现,正好是48条记录,也就是48个商品的信息,所以直接匹配就可以把所所有商品名称信息提取出来,是不是很简单。

对于商品价格 和月销量也是这么获取的

def parsePage(ilt, html):

部分代码

#CrowTaobaoPrice.pyimport requestsimport redef getHTMLText(url):

结果:

利用Python爬虫商品最全信息,买不到不可能!(文末附赠教程)

小伙伴也可以更改这个程序去搜索各种不同的商品的信息啦

最后,想学习Python的小伙伴们!

请关注+私信回复:“学习”就可以拿到一份我为大家准备的Python学习资料!

利用Python爬虫商品最全信息,买不到不可能!(文末附赠教程)

pytyhon学习资料

利用Python爬虫商品最全信息,买不到不可能!(文末附赠教程)

python学习资料

相关推荐