大神利用Python爬虫五分钟抓站,你猜用哪些技巧(文末附赠教程)

各类爬虫脚本,有一个共性,都是和web相关的,总要用到获取链接的一些方法,在此总结一下,那么以后做东西也就不用重复劳动了。

大神利用Python爬虫五分钟抓站,你猜用哪些技巧(文末附赠教程)

大神利用Python爬虫五分钟抓站,你猜用哪些技巧(文末附赠教程)

大神利用Python爬虫五分钟抓站,你猜用哪些技巧(文末附赠教程)

可以看到verycd的话需要填username,password,continueURI,fk,login_submit这几项,其中fk是随机生成的(其实不太随机,看上去像是把epoch时间经过简单的编码生成的),需要从网页获取,也就是说得先访问一次网页,用正则表达式等工具截取返回数据中的fk项。continueURI顾名思义可以随便写,login_submit是固定的,这从源码可以看出。还有username,password那就很显然了。

好的,有了要填写的数据,我们就要生成postdata

大神利用Python爬虫五分钟抓站,你猜用哪些技巧(文末附赠教程)

3.3 伪装成浏览器访问

某些网站反感爬虫的到访,于是对爬虫一律拒绝请求。这时候我们需要伪装成浏览器,这可以通过修改http包中的header来实现:

大神利用Python爬虫五分钟抓站,你猜用哪些技巧(文末附赠教程)

大神利用Python爬虫五分钟抓站,你猜用哪些技巧(文末附赠教程)

3.5 终极绝招

有时候即使做了3.1-3.4,访问还是会被据,那么没办法,老老实实把httpfox中看到的headers全都写上,那一般也就行了。 再不行,那就只能用终极绝招了,selenium直接控制浏览器来进行访问,只要浏览器可以做到的,那么它也可以做到。类似的还有pamie,watir,等等等等。

4.多线程并发抓取

单线程太慢的话,就需要多线程了,这里给个简单的线程池模板 这个程序只是简单地打印了1-10,但是可以看出是并发地。

大神利用Python爬虫五分钟抓站,你猜用哪些技巧(文末附赠教程)

大神利用Python爬虫五分钟抓站,你猜用哪些技巧(文末附赠教程)

5.验证码的处理

碰到验证码咋办?这里分两种情况处理:

  • google那种验证码,凉拌
  • 简单的验证码:字符个数有限,只使用了简单的平移或旋转加噪音而没有扭曲的,这种还是有可能可以处理的,一般思路是旋转的转回来,噪音去掉,然后划分单个字符,划分好了以后再通过特征提取的方法(例如PCA)降维并生成特征库,然后把验证码和特征库进行比较。这个比较复杂,一篇博文是说不完的,这里就不展开了,具体做法请弄本相关教科书好好研究一下。
  • 事实上有些验证码还是很弱的,这里就不点名了,反正我通过2的方法提取过准确度非常高的验证码,所以2事实上是可行的。

6 gzip/deflate支持

现在的网页普遍支持gzip压缩,这往往可以解决大量传输时间,以VeryCD的主页为例,未压缩版本247K,压缩了以后45K,为原来的1/5。这就意味着抓取速度会快5倍。

然而python的urllib/urllib2默认都不支持压缩,要返回压缩格式,必须在request的header里面写明’accept-encoding’,然后读取response后更要检查header查看是否有’content-encoding’一项来判断是否需要解码,很繁琐琐碎。如何让urllib2自动支持gzip, defalte呢?

其实可以继承BaseHanlder类,然后build_opener的方式来处理:

大神利用Python爬虫五分钟抓站,你猜用哪些技巧(文末附赠教程)

大神利用Python爬虫五分钟抓站,你猜用哪些技巧(文末附赠教程)

大神利用Python爬虫五分钟抓站,你猜用哪些技巧(文末附赠教程)

1、用twisted进行异步I/O抓取

事实上更高效的抓取并非一定要用多线程,也可以使用异步I/O法:直接用twisted的getPage方法,然后分别加上异步I/O结束时的callback和errback方法即可。例如可以这么干:

大神利用Python爬虫五分钟抓站,你猜用哪些技巧(文末附赠教程)

twisted人如其名,写的代码实在是太扭曲了,非正常人所能接受,虽然这个简单的例子看上去还好;每次写twisted的程序整个人都扭曲了,累得不得了,文档等于没有,必须得看源码才知道怎么整,唉不提了。

如果要支持gzip/deflate,甚至做一些登陆的扩展,就得为twisted写个新的HTTPClientFactory类诸如此类,我这眉头真是大皱,遂放弃。有毅力者请自行尝试。

这篇讲怎么用twisted来进行批量网址处理的文章不错,由浅入深,深入浅出,可以一看。

2、设计一个简单的多线程抓取类

还是觉得在urllib之类python“本土”的东东里面折腾起来更舒服。试想一下,如果有个Fetcher类,你可以这么调用

大神利用Python爬虫五分钟抓站,你猜用哪些技巧(文末附赠教程)

大神利用Python爬虫五分钟抓站,你猜用哪些技巧(文末附赠教程)

大神利用Python爬虫五分钟抓站,你猜用哪些技巧(文末附赠教程)

大神利用Python爬虫五分钟抓站,你猜用哪些技巧(文末附赠教程)

8. 一些琐碎的经验

大神利用Python爬虫五分钟抓站,你猜用哪些技巧(文末附赠教程)

大神利用Python爬虫五分钟抓站,你猜用哪些技巧(文末附赠教程)

大神利用Python爬虫五分钟抓站,你猜用哪些技巧(文末附赠教程)

最后,想学习Python的小伙伴们!

请关注+私信回复:“学习”就可以拿到一份我为大家准备的Python学习资料!

大神利用Python爬虫五分钟抓站,你猜用哪些技巧(文末附赠教程)

pytyhon学习资料

大神利用Python爬虫五分钟抓站,你猜用哪些技巧(文末附赠教程)

python学习资料

相关推荐