记录Python的scrapy爬虫——房天下(附源码)

  • scrapy框架在windows10系统中的部署
  1. 安装Visual C++ Build Tools
1.获取所有城市url
 http://www.fang.com/SoufunFamily.htm
 例如:http://cq.fang.com/
2.新房url
 http://newhouse.sh.fang.com/house/s/
3.二手房url
 http://esf.sh.fang.com/
4.北京新房和二手房url规则不同
 http://newhouse.fang.com/house/s/
 http://esf.fang.com/复制代码

由于在Scrapy的依赖文件库中,pywin32和Twisted的底层是基于C语言开发的,因此需要安装C语言的编译环境。对于python3.6来说,可以通过安装Visual C++ Build Tools来安装这个环境。下载地址为:https://visualstudio.microsoft.com/thank-you-downloading-visual-studio/?sku=BuildTools&rel=152

2.安装pywin32

在Windows系统中搭建Scrapy的环境,有两个第三方库不能用常规方法安装,一个是lxml,另外一个就是pywin32。这两个第三方库都不建议使用pip命令安装,均可以采用.exe安装包进行安装。

记录Python的scrapy爬虫——房天下(附源码)

3.创建虚拟环境Virtualenv

由于在之后的Twisted和Scrapy安装中,会附带安装大量的依赖库,而这些库仅在Scrapy中会用到,平常的开发中几乎不会用。所以把他们安装到系统中,会导致python系统的混乱,而且发布爬虫时,也不便于导出涉及的依赖库文件。

因此我们使用Virtualenv创建一个虚拟的python环境来安装Scrapy剩下的部分。

Virtualenv是Python的一个第三方库,使用它可以创造Python的虚拟环境。使用普通方法就可以安装Virtualenv:

pip install virtualenv

要让Virtualenv使用系统Python环境下的第三方库,就需要在CMD中使用下面的命令来创建虚拟环境:

virtualenv --always-copy --system-site-packages venv

创建虚拟环境后,可以使用以下的命令来激活虚拟环境:

venv\scripts\avtivate

不要关闭这个窗口,接下来的所有操作都要在这里进行。

4.安装Twisted和Scrapy

在刚才的窗口中使用pip命令进行安装即可,分别是:

pip install twisted

pip install scrapy

关注公众号,与更多IT大神学习交流,让自己进入这个行业,体现自身价值。

抓取房天下网站房源信息实例,具体代码请关注公众号“黑客一龙”回复“房天下”查看源代码。

相关推荐