Python爬取分析全国12个城市4万条房价信息，告诉你该怎样买房？

疾风先生

2019-03-06

Python爬取分析全国12个城市4万条房价信息，告诉你该怎样买房？

作者 | 月小水长

责编 | 伍杏玲

通过分页、线程池、代理池等技术，快速爬取链家网近4万条在售二手房信息，速度可达 10000 条 / 5 分钟。

通过对二手房作数据分析，得到北上广深等(新)一线城市四地房价的纵向比较，同时对各个城市各个区的房价做横向对比，并将对比结果可视化出来。

主要用到的库或模块包括 Requests、PyQuery、ThreadPoolExecutor、JSON、Matplotlib、PyEcharts。

环境：Widnows10、Python3.5、Pycharm2018。

数据抓取

爬虫架构设计

通过分析链家网的 URL ，不难发现，每一个城市的链家网的基本格式是：

城市名简拼 + ”.lianjia.com“

所以整个爬虫最外层应该是遍历一个保存城市简拼的列表，拼接得到一个个起始 URL，根据这些 URL 爬取对应城市的链家网。

针对每一个城市的链家网而言，首先得到该城市在售二手房的总套数，由于每一页显示的套数是 30，由总套数整除以30再加上1可以得到总页数，但是由于最大可浏览页数为 100，所以我们这里得加个判断，如果总页数大于 100 的话，令总页数等于 100。

分析具体城市的链家网每一页的 URL, 以北京为例，我们可以发现第 N 页的 URL 是：

bj.lianjia.com/ershoufang/pg{N}，由此我们可以通过以下代码来得到每一页的 URL：

for i in range(total_page):
 page_url = "bj.lianjia.com/ershoufang/pg{}".format(i+1)

本来得到每一页的 URL 后，我们可以得到该页上 30 套房的房价信息和详情页 URL，但是页面上没有房子所在区的信息。

我们只能再向下请求访问详情页 URL，从而提取出我们想要的所有数据。

综上所述，我们可以将整个框架从上往下分为四层，如下图所示：

Python爬取分析全国12个城市4万条房价信息，告诉你该怎样买房？

基于上述思路，在写代码的时候，可以分层从上往下实现，方便调试。

第一层 & 第二层：获取总套数

根据城市简拼得到起始 URL，并得到总套数，为分页做准备。

def get_list_page_url(city):
 start_url = "https://{}.lianjia.com/ershoufang".format(city)
 headers = {
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
 }
 try:
 response = requests.get(start_url, headers=headers)
 # print(response.status_code, response.text)
 doc = pq(response.text)
 total_num = int(doc(".resultDes .total span").text())
 total_page = total_num // 30 + 1
 # 只能访问到前一百页
 if total_page &gt; 100:
 total_page = 100
 page_url_list = list()
 for i in range(total_page):
 url = start_url + "/pg" + str(i + 1) + "/"
 page_url_list.append(url)
 #print(url)
 return page_url_list
 except:
 print("获取总套数出错,请确认起始URL是否正确")
 return None

第三层：根据起始 URL 得到分页 URL

def get_detail_page_url(page_url):
 global detail_list
 headers = {
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
 'Referer': 'https://bj.lianjia.com/ershoufang'
 }
 try:
 response = requests.get(page_url,headers=headers,timeout=3)
 doc = pq(response.text)
 i = 0
 detail_urls = list()
 for item in doc(".sellListContent li").items():
 i += 1
 print(i)
 if i == 31:
 break
 child_item = item(".noresultRecommend")
 if child_item == None:
 i -= 1
 detail_url = child_item.attr("href")
 detail_urls.append(detail_url)
 return detail_urls
 except:
 print("获取列表页" + page_url + "出错")

第四层

本层做的是具体解析，解析使用的是 PyQuery 库，支持 CSS 选择器且比 Beautiful Soup 方便。仅仅需要下面几行代码就帮助我们获得了目标数据：

response = requests.get(url=detail_url, headers=headers, proxies=proxies)
#detail_url 是得到的详情页 URL
detail_dict = dict()
doc = pq(response.text)
unit_price = doc(".unitPriceValue").text()
unit_price = unit_price[0:unit_price.index("元")]
title = doc("h1").text()
area = doc(".areaName .info a").eq(0).text().strip()
url = detail_url

多线程爬取

由于待爬取的数据量巨大，使用单线程速度太慢，最开始采用了第三方库 ThreadPool 来实现多线程，后来了解到 Python3.5 的内置包 concurrent.futures，使用里面的 ThreadPoolExecutor 来实现多线程，速度又提升了 20% 以上。

p = ThreadPoolExecutor(30)
for page_url in page_url_list:
 p.submit(get_detail_page_url, page_url).add_done_callback(detail_page_parser)
p.shutdown()

第 1 行通过构造函数新建了线程池对象，最大可并发线程数指定为 30，如不指定，其默认值是 CPU 数的 5 倍，第 2、3 行依次把爬取的任务提交到线程池中，并设置回调函数，这里的回调函数拿到的是一包含 get_detail_page_url 返回值的对象。

并把这个对象作为回调函数的参数 res，先把返回的res得到一个结果,即在前面加上一个res.result()，这个结果就是 get_detail_page_url 的返回值。

IP 代理池

由于爬取的数量大，同时由于多线程提高了速度，链家网会拒绝访问，这时可通过代理 IP 来访问，这里使用已经有的轮子，源码链接附在文末。

下载后新开一个 Pycharm 视窗运行该项目，然后我们可以用下面的方式来获取可用的代理 IP：

def get_valid_ip():
 url = "http://localhost:5000/get"
 try:
 ip = requests.get(url).text
 return ip
 except:
 print("请先运行代理池")

然后通过参数设置使用代理 IP：

proxies = {
 "http": "http://" + get_valid_ip(),
}
response = requests.get(url=detail_url, headers=headers, proxies=proxies)

数据保存

采用 JSON文件形式保存数据，每个城市保存一个 JSON 文件，文件名为该城市简拼。

def save_data(data,filename):
 with open(filename+".json", 'w', encoding="utf-8") as f:
 f.write(json.dumps(data, indent=2, ensure_ascii=False))

稍等一会儿，所有数据就保存在本地了：

Python爬取分析全国12个城市4万条房价信息，告诉你该怎样买房？

Python爬取分析全国12个城市4万条房价信息，告诉你该怎样买房？

本爬虫所爬数据仅为本人测试，严禁商用。

数据分析

数据整合

在这里做一些求同地区房价最大值、最小值、平均值，以及数据格式统一化的工作：

def split_data():
 global region_data
 region_data = dict()
 for region in dic_data.keys():
 # 最大值、最小值、平均值
 region_data[region] = {"max":dic_data[region][0],"min":dic_data[region][0],"average":0}
 for per_price in dic_data[region]:
 if per_price &gt; region_data[region]["max"]:
 region_data[region]["max"] = per_price
 if per_price &lt; region_data[region]["min"]:
 region_data[region]["min"] = per_price
 region_data[region]["average"] += per_price
 region_data[region]["average"] /= len(dic_data[region])
 # 保留两位小数
 region_data[region]["average"] = round(region_data[region]["average"],2)

数据可视化

将分析结果通过 Matplotlib 直观的体现出来，该部分的代码如下：

def data_viewer():
 label_list = region_data.keys() # 横坐标刻度显示值
 max = []
 min = []
 average = []
 for label in label_list:
 max.append(region_data[label].get("max"))
 min.append(region_data[label].get("min"))
 average.append(region_data[label].get("average"))
 x = range(len(max))
 """
 绘制条形图
 left: 长条形中点横坐标
 height: 长条形高度
 width: 长条形宽度，默认值0
 .8
 label: 为后面设置legend准备
 """
 rects1 = plt.bar(x=x, height=max, width=0.25, alpha=0.8, color='red', label="最大值")
 rects2 = plt.bar(x=[i + 0.25 for i in x], height=average, width=0.25, color='green', label="平均值")
 rects3 = plt.bar(x=[i + 0.5 for i in x], height=min, width=0.25, color='blue', label="最小值")
 #plt.ylim(0, 50) # y轴取值范围
 plt.ylabel("房价/元")
 """
 设置x轴刻度显示值
 参数一：中点坐标
 参数二：显示值
 """
 plt.xticks([index + 0.2 for index in x], label_list)
 plt.xlabel("地区")
 plt.legend()
 for rect in rects1:
 height = rect.get_height()
 plt.text(rect.get_x() + rect.get_width() / 2, height+1, str(height), ha="center", va="bottom")
 for rect in rects2:
 height = rect.get_height()
 plt.text(rect.get_x() + rect.get_width() / 2, height + 1, str(height), ha="center", va="bottom")
 for rect in rects3:
 height = rect.get_height()
 plt.text(rect.get_x() + rect.get_width() / 2, height + 1, str(height), ha="center", va="bottom")
 plt.show()

结果如下：

Python爬取分析全国12个城市4万条房价信息，告诉你该怎样买房？

Python爬取分析全国12个城市4万条房价信息，告诉你该怎样买房？

Python爬取分析全国12个城市4万条房价信息，告诉你该怎样买房？

Python爬取分析全国12个城市4万条房价信息，告诉你该怎样买房？

限于篇幅，其他城市的图就不放了。

再来看全国主要一线城市二手房房价有序条形图：

Python爬取分析全国12个城市4万条房价信息，告诉你该怎样买房？

可以看出，北京、上海、深圳的房价大致在同一水平线，而厦门位于第四，广州在第六，最后看一下房价地域图：

Python爬取分析全国12个城市4万条房价信息，告诉你该怎样买房？

最后看一下房价地域图这是基于 JavaScript 的可交互动态图，放截图挺别扭的，我已经把它放在我的网上了，感兴趣的可以点击在线观看。

作者简介：月小水长，某 985 计算机学院在校生，熟悉 C++、Java、Python 等多种语言，有大型软件项目开发经验，致力于安卓、计算机视觉、爬虫、数据可视化开发，同时也是业余的前端爱好者。微信公众号：inspurer源码：https://github.com/Python3Spiders/LianJiaSpider.git动态图展示：https://inspurer.github.io/fang_price_city.html

python 房价购房全国房价

疾风先生

0 关注 0 粉丝 0 动态

相关推荐

python 发送get请求接口详解

　　如果想用python做接口测试，我们首先有不得不了解和学习的模块。虽然Python内置的urllib模块，用于访问网络资源。但是，它用起来比较麻烦，而且，缺少很多实用的高级功能。更好的方案是使用。它是一个Python第三方库，处理URL资源特别方便。R

YENCSDN 2020-11-17

python 使用tkinter+you-get实现视频下载器

#获取屏幕尺寸以计算布局参数，使窗口居屏幕中央,其中width和height为界面宽和高。#阻止窗口调整大小

lsjweiyi 2020-11-17

python中requests模拟登录的三种方式(携带cookie/session进行请求网站)

session是在cookie的基础上，服务端设置session时会向浏览器发送设置一个设置cookie的请求，这个cookie包括session的id当访问服务端时带上这个session_id就可以获取到用户保存在服务端对应的session. 到此这篇关

houmenghu 2020-11-17

python开发一个解析protobuf文件的简单编译器

最近刚刚用python写完了一个解析protobuf文件的简单编译器，深感ply实现词法分析和语法分析的简洁方便。乘着余热未过，头脑清醒，记下一点总结和心得，方便各位pythoner参考使用。如果你不是从事编译器或者解析器的开发工作，你可能从未听说过ply

Erick 2020-11-17

python 下载文件的多种方法汇总

本文档介绍了 Python 下载文件的各种方式，从下载简单的小文件到用断点续传的方式下载大文件。使用 Requests 模块的 get 方法从一个 url 上下载文件，在 python 爬虫中经常使用它下载简单的网页内容。使用 python 内置的 url

HeyShHeyou 2020-11-17

Linux Shell 如何获取参数的方法

是显示最后命令的退出状态，0表示没有错误，其他表示有错误。不同点：$* 和 $@ 都表示传递给函数或脚本的所有参数，不被双引号(" ")包含时，都以"$1" "$2" …"$n"

以梦为马不负韶华 2020-10-20

python跨文件使用全局变量的实现

但是他的一大缺陷就是只能本module 中也就是本文件中使用，跳出这个module就不行。使用一个更宏观的思路，全局变量就用全局加载的模块解决，很遗憾也是不行，这样可以，但是如果再有一个module 想用呢？这样就会报错，因为import 加载就会执行一遍

lhtzbj 2020-11-17

Python爬虫破解登陆哔哩哔哩的方法

作为一名找不到工作的爬虫菜鸡人士来说，登陆这一块肯定是个比较大的难题。从今天开始准备一点点对大型网站进行逐个登陆破解。加深自己爬虫水平。if response_json['code'] == 0 and response_json['data']['sta

夜斗不是神 2020-11-17

python调用百度API实现人脸识别

# """ 你的 APPID AK SK """. # img = Image.fromarray #将每一帧转为Image. # output_buffer = BytesIO() #创

pythonjw 2020-11-17

Python调用ffmpeg开源视频处理库，批量处理视频

strcmd = r'ffprobe -print_format json -show_streams -i "{}"'.format. strcmd = 'ffmpeg -i "{}" -vcodec copy -

dingwun 2020-11-16

详解python os.path.exists判断文件或文件夹是否存在

os即operating system，Python 的 os 模块封装了常见的文件和目录操作。os.path模块主要用于文件的属性获取,exists是“存在”的意思，所以顾名思义，os.path.exists()就是判断括号里的文件是否存在的意思，括号内

lhxxhl 2020-11-16

python实现在列表中查找某个元素的下标示例

列表中字符和数字都有。使用python的内建函数enumerate

sunskyday 2020-11-16

python如何获得list或numpy数组中最大元素对应的索引

#表示最大值在第二行第二列

sizhixht 2020-11-16

Python实现列表索引批量删除的5种方法

开头，如果不仔细看好像没什么问题。但是结果却是错误的。将 listObj.remove() 改为listObj.pop结果也是相同的。Java用同样的编程思想，得到的结果也有相似性。这种错误，主要是初学者对于数据存储原理没有理解清楚，或者，没有意识到内存存

坚持是一种品质 2020-11-16

python 爬虫如何实现百度翻译

本文将会通过爬虫的方式实现简单的百度翻译。本文中的代码只供学习，不允许作为于商务作用。若有侵犯，立即删文！在网站文件中找到隐藏的免费api。传入api所需要的参数并对其发出请求。在返回的json结果里找到相应的翻译结果。进入百度翻译，随便输入一段需要翻译的

染血白衣 2020-11-16

致命错误！Python开发者的7个崩溃瞬间

本文转载自公众号“读芯术”。毫无疑问，Python是当今使用最为广泛的编程语言。但无论你经验多丰富，或是已使用过多少种语言，切换到Python时都不能保证非常顺利。具有面向对象编程背景的开发人员容易忽略Python的惯用特性，很可能会滥用编程结构，从而产生

huavhuahua 2020-11-20

针对Python开发人员的10个“疯狂”的项目构想

最棒的是，你可以通过这些有趣但也具有挑战性的项目来增强 Python 编程技能。你知道 Python 是被称为全能编程语言的吗？是的，它确实是，虽然不应该在每个项目中都使用它。你可以使用它来创建桌面应用程序、游戏、移动应用程序、网站和系统软件。它甚至是

meylovezn 2020-11-20

用Python内置模块处理ini配置文件

开发人员每天都在处理一些大型而复杂的项目，而配置文件会帮到我们并节省不少时间。在处理配置文件过程中，无需更改源代码本身，只需要调整配置文件即可访问不同的API接口、更新基础URL信息或其它事情。尽管可以通过多种方式来支持软件中的配置文件，包括JSON，

逍遥友 2020-11-20

VS Code 中 Python 扩展的部分功能重构，支持 R 和 Julia

11 月 12 日，微软将 Jupyter Notebook 支持从 Python 扩展中独立出来，发布新的 Jupyter 扩展，支持智能感知，调试等功能的交互式编程和计算。Jupyter 扩展通过新的“ Native Notebooks Experi

weiiron 2020-11-16

Python五个隐藏的特性，你可能从未听说过

在本文中，我将向您展示Python中很常见的5个特性。有经验的Python开发人员可能认识其中一些。然而，这对其他人仍将是未知的。是的，你没看错，在Python中...是一个有效的构造。...是称为省略号的单例对象。如果你把它输入到Python解释器中，你

Yasin 2020-11-16

疾风先生

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号