记录Python的scrapy爬虫——房天下(附源码)
- scrapy框架在windows10系统中的部署
- 安装Visual C++ Build Tools
1.获取所有城市url http://www.fang.com/SoufunFamily.htm 例如:http://cq.fang.com/ 2.新房url http://newhouse.sh.fang.com/house/s/ 3.二手房url http://esf.sh.fang.com/ 4.北京新房和二手房url规则不同 http://newhouse.fang.com/house/s/ http://esf.fang.com/复制代码
由于在Scrapy的依赖文件库中,pywin32和Twisted的底层是基于C语言开发的,因此需要安装C语言的编译环境。对于python3.6来说,可以通过安装Visual C++ Build Tools来安装这个环境。下载地址为:https://visualstudio.microsoft.com/thank-you-downloading-visual-studio/?sku=BuildTools&rel=152
2.安装pywin32
在Windows系统中搭建Scrapy的环境,有两个第三方库不能用常规方法安装,一个是lxml,另外一个就是pywin32。这两个第三方库都不建议使用pip命令安装,均可以采用.exe安装包进行安装。
3.创建虚拟环境Virtualenv
由于在之后的Twisted和Scrapy安装中,会附带安装大量的依赖库,而这些库仅在Scrapy中会用到,平常的开发中几乎不会用。所以把他们安装到系统中,会导致python系统的混乱,而且发布爬虫时,也不便于导出涉及的依赖库文件。
因此我们使用Virtualenv创建一个虚拟的python环境来安装Scrapy剩下的部分。
Virtualenv是Python的一个第三方库,使用它可以创造Python的虚拟环境。使用普通方法就可以安装Virtualenv:
pip install virtualenv
要让Virtualenv使用系统Python环境下的第三方库,就需要在CMD中使用下面的命令来创建虚拟环境:
virtualenv --always-copy --system-site-packages venv
创建虚拟环境后,可以使用以下的命令来激活虚拟环境:
venv\scripts\avtivate
不要关闭这个窗口,接下来的所有操作都要在这里进行。
4.安装Twisted和Scrapy
在刚才的窗口中使用pip命令进行安装即可,分别是:
pip install twisted
pip install scrapy
关注公众号,与更多IT大神学习交流,让自己进入这个行业,体现自身价值。
抓取房天下网站房源信息实例,具体代码请关注公众号“黑客一龙”回复“房天下”查看源代码。