Python入门小建议

liugan

2020-01-28

关注关注

"java从心"正式更名"KEN DO EVERTHING"。Ken(Can) Do Everything,无所不能

Believe youseft then you can do everthing !

我也是刚踏入python的大门,所以只能给点小建议,而不是指导(暂时只接触了python爬虫)

入门3部曲

1.语法学习,推荐可以看菜鸟教程上的python3语法

https://www.runoob.com/python3/python3-tutorial.html

有其他语言基础的人,其实可以随便过一遍,因为python语法很简单,不看语法也能直接看懂,实在不懂的时候再返回去查,效果可能会更好

2.视频学习,推荐廖老师python爬虫实战课程。

公众号后台发送【python爬虫】获取

千万别只看，看完相关视频得自己动手实战才会有收获！

3.实战项目，找几个自己想爬取的网站，试着用自己学到的东西，开始瞎搞吧！

当时实战遇到都是动态js生成的页面，没法直接从response获取数据，所以使用了selenium框架。

说几点需要注意的地方

1.别将selenium集成到scrapy上使用(可能是拙见，如有错误务必纠正我)

因为Scrapy中Spirder的parse方法是单线程的，response交由parse处理时是队列串行的，使用selenium就不能同时打开多个浏览器爬取了，selenium本来就够慢了，所以别将selenium集成到scrapy。可以单独使用selenium然后开启多线程去爬取，会快很多。

(后面我才发现,原来scrapy也有爬取动态网页的库scrapy-splash!)。不过由于selenium出现的比较早，使用scrapy-splash的人会比selenium的少)

2.不要用time.sleep去等待页面加载

因为你根本不知道它真实加载时间是多久，设置多了就浪费时间，少了可能网页还没加载不出来。

对于selenium框架，推荐使用

WebDriverWait(driver, 10).until（特定元素），设置一个时间，等待出现某个特定元素，未出现则会抛出超时异常。然后可以加上重试操作，重试一定次数后放弃这次爬取,最简单的方式就是使用循环。

3.反爬

发现爬取程序出了问题,无法爬取数据,可以考虑下,是不是网站使用了一些反爬策略,这时就需要使用对应的反反爬方法去应对了

主要反爬策略有下面几种：

①判断User-Agent，是否为浏览器；

②判断短时间内同一个IP访问次数；

③用户登录后才能访问资源；

④短时间用户使用不同IP访问资源，异常登录；

⑤验证码，滑动点击验证；

⑥数据加解密处理；

对于不同反爬策略，可以使用不同应对方式：

①User-Agent：发起请求时候添加头信息，伪装浏览器；

②短时间内访问次数限制：可以使用代理或者延时爬取；

③登录后访问：模拟登录保存cookie,请求时添加cookie信息；

④异常登录：准备大量账号，绑定不同代理进行爬取；

⑤验证码：使用对应python库进行处理,github上面可以找到；

⑥数据加解密处理：使用对应算法进行破解，或者使用selenium进行抓取；

4.代码中需考虑所爬取网站的稳定性

网站可能会出现以下几种情况

1.所爬取网站性能很差,页面有时响应很慢

2.有时网站直接崩掉

3.处于维护状态

代码中必须考虑这些情况的出现,写对应的异常与处理逻辑,否则爬虫程序会崩掉或卡住

5.爬虫程序不是永久可用的

不管是分析页面还是解析response的爬取,都是别人东西,万一网站有所改动,你的程序就不可用了。如果你接了爬虫项目，这一点必须提前告知客户

好叻,我就懂这么一点，都告诉你了。

去开启你的python之旅吧

文章首发于公众号【KEN DO EVERTHING】
本公众号专注于java相关技术,但不限于java、mysql、python、面试技巧、生活感悟等。分享优质博文,技术干货，学习资源等优质内容。
欢迎关注，一起学习，共成长！

liugan

0 关注 0 粉丝 0 动态

关注关注

安科网

Python入门小建议

liugan

liugan

liugan