python 爬虫入门知识(文末附赠python教程分享)

1 自定义opener

opener是 urllib.request.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的模块构建好的opener

但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能:

(1)使用相关的 Handler处理器 来创建特定功能的处理器对象;

(2)然后通过 urllib.request.build_opener()方法使用这些处理器对象,创建自定义opener对象;

(3)使用自定义的opener对象,调用open()方法发送请求。

如果程序里所有的请求都使用自定义的opener,可以使用urllib.request.install_opener() 将自定义的 opener 对象 定义为 全局opener,表示之后凡是调用urlopen,都将使用这个opener来打开

在urllib库中,给我们提供了一些Handler:HTTPHandler,HTTPSHandler,ProxyHandler,BaseHandler,AbstractHTTPHandler,FileHandler,FTPHandler,分别用于处理HTTP,HTTPS,Proxy代理等。

python 爬虫入门知识(文末附赠python教程分享)

如果在 HTTPHandler()增加 debuglevel=1参数,还会将 Debug Log 打开,这样程序在执行的时候,会把收包和发包的报头在屏幕上自动打印出来,方便调试,有时可以省去抓包的工作。

python 爬虫入门知识(文末附赠python教程分享)

2 Cookie概述

Cookie 是指某些网站服务器为了辨别用户身份和进行Session跟踪,而储存在用户浏览器上的文本文件,Cookie可以保持登录信息到用户下次与服务器的会话。

(1) Cookie原理

HTTP是无状态的面向连接的协议, 为保持连接状态, 引入Cookie机制 Cookie是http消息头中的一种属性,包括:

python 爬虫入门知识(文末附赠python教程分享)

Cookie由变量名和值组成,Cookie格式如下:

python 爬虫入门知识(文末附赠python教程分享)

(2) cookie应用

Cookies在爬虫方面最典型的应用是判定注册用户是否已经登录网站,用户可能会得到提示,是否在下一次进入此网站时保留用户信息以便简化登录手续。

python 爬虫入门知识(文末附赠python教程分享)

但是这样做太过复杂,我们先需要在浏览器登录账户,并且设置保存密码,并且通过抓包才能获取这个Cookie,那有么有更简单方便的方法呢?

3 cookielib库和HTTPCookieProcessor处理器

在Python处理Cookie,一般是通过cookielib模块和 urllib模块的HTTPCookieProcessor处理器类一起使用

cookielib模块:主要作用是提供用于存储cookie的对象

HTTPCookieProcessor处理器:主要作用是处理这些cookie对象,并构建handler对象。

(1)cookielib库

该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar

python 爬虫入门知识(文末附赠python教程分享)

其实大多数情况下,我们只用CookieJar(),如果需要和本地文件交互,就用 MozillaCookjar() 或 LWPCookieJar()

(2) 案例

HTTPCookieProcessor 用来配置cookie的处理器

ProxyHandler 用来配置代理

HTTPHander 用来配置http

HTTPSHander 用来配置https

cookie库的配置流程:

创建一个CookieJar对象

使用cookiejar对象,创建一个handler对象

使用handler创建一个opener

通过opener登录

handler会自动的保存登录之后的cookie

获取Cookie,并保存到CookieJar()对象中

python 爬虫入门知识(文末附赠python教程分享)

访问网站获取cookie值,并把获得的cookie保存在cookie文件中

python 爬虫入门知识(文末附赠python教程分享)

从文件中获取cookies,做为请求的一部分去访问

python 爬虫入门知识(文末附赠python教程分享)

4 HTTP代理Fidder

python 爬虫入门知识(文末附赠python教程分享)

(3)模拟登陆人人网

python 爬虫入门知识(文末附赠python教程分享)

(4)重复使用cookie

python 爬虫入门知识(文末附赠python教程分享)

5 ProxyHandler处理器

(1) 代理 IP

使用代理IP,这是爬虫/反爬虫的第二大招,通常也是最好用的。

很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个IP的访问。

所以我们可以设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁止,依然可以换个IP继续爬取。urllib中通过ProxyHandler来设置使用代理服务器,下面代码说明如何使用自定义opener来使用代理:

python 爬虫入门知识(文末附赠python教程分享)

免费短期代理网站举例:

python 爬虫入门知识(文末附赠python教程分享)

python 爬虫入门知识(文末附赠python教程分享)

(2)HTTPPasswordMgrWithDefaultRealm()

HTTPPasswordMgrWithDefaultRealm()类创建一个密码管理对象,用来保存HTTP请求相关的用户名和密码,主要应用两个场景:

验证代理授权的用户名和密码(ProxyBasicAuthHandler())

验证web客户端的用户名和密码(HTTPBasicAuthHandler())

ProxyBasicAuthHandler(代理授权验证)

如果我们使用之前的代码来使用私密代理,会报HTTP 407错误,表示代理没有通过身份验证:

urllib2.HTTPError:HTTP Error 407:Proxy Authentication Required

所以我们需要改写代码,通过:

HTTPPasswordMgrWithDefaultRealm():来保存私密代理的用户密码

ProxyBasicAuthHandler():来处理代理的身份。

python 爬虫入门知识(文末附赠python教程分享)

有些Web服务器(包括HTTP/FTP等)访问时,需要进行用户身份验证,爬虫直接访问会报HTTP 401错误,表示访问身份未经授权:

urllib2.HTTPError:HTTP Error 401:Unauthorized

如果我们有客户端的用户名和密码,我们可以通过下面的方法去访问爬取:

python 爬虫入门知识(文末附赠python教程分享)

最后,想学习Python的小伙伴们!

请关注+私信回复:“学习”就可以拿到一份我为大家准备的Python学习资料!

python 爬虫入门知识(文末附赠python教程分享)

pytyhon学习资料

python 爬虫入门知识(文末附赠python教程分享)

python学习资料

相关推荐