一个案例带你破解所有的反爬!以后碰到反爬再也不用担心了!
正文:
首先查看js渲染前的html源码,发现放图片的位置是这样的
本该放地址的地方赫然放着blank.gif,并且在onload属性上绑定了一个jandan_load_img函数。这个jandan_load_img就成为本次爬虫的突破所在了。继续ctrl+shift+F全局搜索,找到这个函数
转换得到的python代码也相对应地分成五块之后如下:
这样对比之下应该就比较清晰了,基本上就是逐行翻译。另外base64需要重写一下。
最后就是一些普通的http请求操作了,以及使用itchat进行图片传输。所有代码已经上传到github上,后续有时间我打算添加上ip代理等新功能。没有系统学习过python所以代码可能不太规范,希望大家多多交流。项目地址:点击打开链接
另附本次爬虫的思维导图:
温馨提醒:虽然煎蛋肯定还有其他反爬措施,大家在爬虫过程中请务必遵守基本的互联网秩序,具体是啥相信大家都懂滴
欢迎大家关注我的博客:https://home.cnblogs.com/u/Python1234/
欢迎大家加入千人交流答疑群:125240963