使用python抓取百度漂流瓶妹纸照片

欢迎点击右上角关注小编,除了分享技术文章之外还有很多福利,私信学习资料可以领取包括不限于Python实战演练、PDF电子文档、面试集锦、学习资料等。

使用python抓取百度漂流瓶妹纸照片

1.分析

首先打开抓包神器 Fiddler ,然后打开漂流瓶首页,加载几页试试,在Fiddler中过滤掉图片数据以及非 http 200 状态码的干扰数据后,发现每一页的数据获取都很有规律,这就给抓取提供了便利。

看参数很容易明白,page_number 就是当前页码,page_size 就是当前页中包含的漂流瓶数量。

访问后得到的是一个json格式的数据,结构大致如下:

使用python抓取百度漂流瓶妹纸照片

2.编码

这里采用的是 python2.7 + urllib2 + demjson 来完成此项工作。urllib2 是python2.7自带的库,demjson 需要自己安装下(一般情况下用python自带的json库就可以完成json解析任务,但是现在好多网站提供的json并不规范,这就让自带json库无能为力了。)

demjson 安装方式 (windows 不需要 sudo)

sudo pip install demjson

或者

sudo esay_install demjson

2.1获得一页内容

使用python抓取百度漂流瓶妹纸照片

2.2根据url保存图片数据

使用python抓取百度漂流瓶妹纸照片

全部代码如下

使用python抓取百度漂流瓶妹纸照片

相关推荐