爬虫实战：爬取当当网所有 Python书籍+今日限时馈赠一套PDF书籍

神码不是浮云

2019-03-29

关注关注

本文主要讲解如何利用urllib、re、BeautifulSoup 这几个库去实战，爬取当当网所有 Python 书籍。

1 确定爬取目标

任何网站皆可爬取，就看你要不要爬取而已。本次选取的爬取目标是当当网，爬取内容是以 Python 为关键字搜索出来的页面中所有书籍的信息。具体如下图所示：

本次爬取结果有三项：

图书的封面图片
图书的书名
图书的链接页面

最后把这三项内容保存到 csv 文件中。

2 爬取过程

总所周知，每个站点的页面 DOM 树是不一样的。所以我们需要先对爬取页面进行分析，再确定自己要获取的内容，再定义程序爬取内容的规则。

2.1 确定 URL 地址

我们可以通过利用浏览器来确定URL 地址，为 urllib 发起请求提供入口地址。接下来，我们就一步步来确定请求地址。

搜索结果页面为 1 时，URL 地址如下：

搜索结果页面为 3 时，URL 地址如下：

搜索结果页面为 21 时，即最后一页，URL 地址如下：

从上面的图片中，我们发现 URL 地址的差异就在于 page_index 的值，所以 URL 地址最终为

http://search.dangdang.com/?key=python&act=input&show=big&page_index=

而 page_index 的值，我们可以通过循环依次在地址后面添加。因此， urllib 请求代码可以这样写：

def main():

# 爬取地址, 当当所有 Python 的书籍, 一共是 21 页

url = "http://search.dangdang.com/?key=python&act=input&show=big&page_index="

# 请求头

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'

}

# 代理, 如果在需要代理就加上这行代码

# proxy_handler = urllib.request.ProxyHandler({

# })

# opener = urllib.request.build_opener(proxy_handler)

# urllib.request.install_opener(opener)

index = 1

while index <= 21:

# 发起请求

request = urllib.request.Request(url=url+str(index), headers=headers)

response = urllib.request.urlopen(request)

index = index + 1

# 解析爬取内容

parseContent(response)

time.sleep(1) # 休眠1秒

showResult()

2.2 确定爬取节点

有了 URL 地址，就能使用 urllib 获取到页面的 html 内容。到了这步，我们就需要找到爬取的节点的规则，以便于 BeautifulSoup 地解析。为了搞定这个问题，就要祭出大招 —— Chrome 浏览器的开发者功能（按下 F12 键就能启动）。我们按下 F12 键盘，依次对每本书进行元素检查（在页面使用鼠标右键，点击“检查”即可），具体结果如下：

从上图可以得知解析规则：每本书的节点是一个 a 标签，a 标签具有 title，href，子标签 img 的 src 三个属性，这三者分别对应书名、书的链接页面、书的封图。看到这里也需你不会小激动，感叹这不就是我们要感兴趣的内容吗？得到解析规则，编写BeautifulSoup 解析代码就有了思路，具体代码如下：

def parseContent(response):

# 提取爬取内容中的 a 标签, 例如：

# <a< span="">

# class="pic" dd_name="单品图片"

# ddclick="act=normalResult_picture&pos=23648843_53_2_q"

# href="http://product.dangdang.com/23648843.html"

# name="itemlist-picture"

# target="_blank" title="

# 趣学Python――教孩子学编程 ">

# <img< span="">

# alt=" 趣学Python――教孩子学编程 "

# data-original="http://img3x3.ddimg.cn/20/34/23648843-1_b_0.jpg"

# src="images/model/guan/url_none.png"/>

soup = BeautifulSoup(response)

temps = soup.find_all('a', class_='pic')

global books

books = books + temps

print('get books size = ' + str(len(books)))

运行结果如下：

这证明刚才制定规则是正确爬取我们所需的内容。

2.3 保存爬取信息

我写爬虫程序有个习惯，就是每次都会爬取内容持久化到文件中。这样方便以后查看使用。如果爬取数据量比较大，我们可以用其做数据分析。我这里为了方便，就将数据保存到 csv 文件中。用 Python 将数据写到文件中，我们经常中文乱码问题所烦恼。如果单纯使用 csv 库，可能摆脱不了这烦恼。所以我们将 csv 和 codecs 结合一起使用。在写数据到 csv 文件的时候，我们可以通过指定文件编码。这样中文乱码问题就迎刃而解。具体代码如下:

def showResult():

fileName = 'PythonBook.csv'

# 指定编码为 utf-8, 避免写 csv 文件出现中文乱码

with codecs.open(fileName, 'w','utf-8') as csvfile:

filednames = ['书名', '页面地址', '图片地址']

writer = csv.DictWriter(csvfile, fieldnames=filednames)

writer.writeheader()

for book in books:

print(book)

# print(book.attrs)

# 获取子节点

# (book.children)[0]

if len(list(book.children)[0].attrs) == 3:

img = list(book.children)[0].attrs['data-original']

else:

img = list(book.children)[0].attrs['src']

try:

writer.writerow({'书名':book.attrs['title'], '页面地址':book.attrs['href'], '图片地址': img})

except UnicodeEncodeError:

print("编码错误, 该数据无法写到文件中, 直接忽略该数据")

print('将数据写到 ' + fileName + '成功！')

看到这里，你可能会问为什么不把编码指定为 gb2312 呢，这样用 ecxel 打开就不会乱码了？原因是当书名全部为英文单词时，使用 gb2312 编码，writer.writerow()会出现编码错误的问题。

如果你要用 excel 打开 PythonBook.csv文件, 你则需多执行下面几步：

1) 打开 Excel
2) 执行“数据”->“自文本”
3) 选择 CSV 文件，出现文本导入向导
4) 选择“分隔符号”，下一步
5) 勾选“逗号”，去掉“ Tab 键”，下一步，完成
6）在“导入数据”对话框里，直接点确定

3 爬取结果

最后，我们将上面代码整合起来即可。爬取结果截下图：

4 写在最后

这次实战算是结束了，但是我们不能简单地满足，看下程序是否有优化的地方。我把该程序不足的地方写出来。

该程序是单线程，没有使用多线程，执行效率不够高。
没有应用面向对象编程思想，程序的可扩展性不高。
没有使用随机 User-Agent 和代理，容易被封 IP。

补充，如遇到保存文件乱码，可以尝试调整编码方式，即：

codecs.open(fileName, 'w','utf-8')调整为codecs.open(fileName, 'w')或者其它编码方式。

如何学习呢？有没有免费资料？

免费送你2019年最新python自学入门视频教程+电子书籍资料！

今天免费分享免费分享！

转发！

转发！关注我私信回复关键词：“ 学习 ” 即可免费领取！

python python爬虫 pdf url

安科网

爬虫实战：爬取当当网所有 Python书籍+今日限时馈赠一套PDF书籍

神码不是浮云

免费送你2019年最新python自学入门视频教程+电子书籍资料！

转发！关注我私信回复关键词：“ 学习 ” 即可免费领取！

神码不是浮云

相关推荐

Python爬虫破解登陆哔哩哔哩的方法

python 爬虫如何实现百度翻译

Python实用技：将Office文件转为PDF

python 下载文件的多种方法汇总

python 发送get请求接口详解

python 使用tkinter+you-get实现视频下载器

python中requests模拟登录的三种方式(携带cookie/session进行请求网站)

python开发一个解析protobuf文件的简单编译器

Linux Shell 如何获取参数的方法

python跨文件使用全局变量的实现

python调用百度API实现人脸识别

Python调用ffmpeg开源视频处理库，批量处理视频

详解python os.path.exists判断文件或文件夹是否存在

python实现在列表中查找某个元素的下标示例

python如何获得list或numpy数组中最大元素对应的索引

Python实现列表索引批量删除的5种方法

致命错误！Python开发者的7个崩溃瞬间

针对Python开发人员的10个“疯狂”的项目构想

用Python内置模块处理ini配置文件

VS Code 中 Python 扩展的部分功能重构，支持 R 和 Julia

神码不是浮云

爬虫实战：爬取当当网所有 Python书籍+今日限时馈赠一套PDF书籍

免费送你2019年最新python自学入门视频教程+电子书籍资料！

转发 ！关注我 私信回复关键词：“ 学习 ” 即可免费领取！

相关推荐

转发！关注我私信回复关键词：“ 学习 ” 即可免费领取！