Scrapy爬取智联招聘
之前接了一个活,做的功能是从智联招聘爬取招聘信息
赚了几百块零花钱
实现了一个GUI,如图:
虽然比较丑low,但是简洁明了,落落大方(已经是我水平的天花板了)
具体功能说明就不了,大家都能看懂的。。。。
智联招聘链接
网页是这个样子的,反爬虫不强。
还实现了一个功能,就是定时发送邮件
如图:
具体功能说明就不了,大家都能看懂的。。。。
接下来就要开源代码了,本来想上传文件,但是发现思否不支持(好像其他博客也不行。。。。。)
所以准备发到github上了。
Github链接呢
顺便说一下思路:
网页参数jl是控制地区的
#下拉列表(地区) area={ '全国': 489, '北京': 530, '上海': 538, '深圳': 765, '广州': 763, '天津': 531, '成都': 801, '杭州': 653, '武汉': 736, '大连': 600, '南京': 635, '苏州': 639, '西安': 854, }
kw参数就是搜索关键词
https://sou.zhaopin.com/?jl=6...
def start_requests(self):发送请求
def parse(self, response):解析列表,发送子请求(为了获取详情)
def re_parse(self, response):解析具体内容
最后,网页时动态渲染的,所以在middleware加了一个selenium,毕竟scrapy本身不支持动态渲染。但这也破坏了scrapy的异步结构,所以,速度不是很理想,但够用。
详情的话,具体看代码吧。乏了。
相关推荐
Catastrophe 2020-05-30
andrewwf 2020-11-11
Arvinzx 2020-10-28
CycloneKid 2020-10-27
paleyellow 2020-10-25
baifanwudi 2020-10-25
heyboz 2020-10-21
wumxiaozhu 2020-10-16
ZHANGRENXIANG00 2020-07-27
zhangll00 2020-07-05
javaraylu 2020-06-28
ZHANGRENXIANG00 2020-06-28
Catastrophe 2020-06-26
Catastrophe 2020-06-26
fangjack 2020-06-25
andrewwf 2020-06-16
qyf 2020-06-14