python 爬虫入门知识(文末附赠python教程分享)
1 自定义opener
opener是 urllib.request.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的模块构建好的opener
但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能:
(1)使用相关的 Handler处理器 来创建特定功能的处理器对象;
(2)然后通过 urllib.request.build_opener()方法使用这些处理器对象,创建自定义opener对象;
(3)使用自定义的opener对象,调用open()方法发送请求。
如果程序里所有的请求都使用自定义的opener,可以使用urllib.request.install_opener() 将自定义的 opener 对象 定义为 全局opener,表示之后凡是调用urlopen,都将使用这个opener来打开
在urllib库中,给我们提供了一些Handler:HTTPHandler,HTTPSHandler,ProxyHandler,BaseHandler,AbstractHTTPHandler,FileHandler,FTPHandler,分别用于处理HTTP,HTTPS,Proxy代理等。
如果在 HTTPHandler()增加 debuglevel=1参数,还会将 Debug Log 打开,这样程序在执行的时候,会把收包和发包的报头在屏幕上自动打印出来,方便调试,有时可以省去抓包的工作。
2 Cookie概述
Cookie 是指某些网站服务器为了辨别用户身份和进行Session跟踪,而储存在用户浏览器上的文本文件,Cookie可以保持登录信息到用户下次与服务器的会话。
(1) Cookie原理
HTTP是无状态的面向连接的协议, 为保持连接状态, 引入Cookie机制 Cookie是http消息头中的一种属性,包括:
Cookie由变量名和值组成,Cookie格式如下:
(2) cookie应用
Cookies在爬虫方面最典型的应用是判定注册用户是否已经登录网站,用户可能会得到提示,是否在下一次进入此网站时保留用户信息以便简化登录手续。
但是这样做太过复杂,我们先需要在浏览器登录账户,并且设置保存密码,并且通过抓包才能获取这个Cookie,那有么有更简单方便的方法呢?
3 cookielib库和HTTPCookieProcessor处理器
在Python处理Cookie,一般是通过cookielib模块和 urllib模块的HTTPCookieProcessor处理器类一起使用
cookielib模块:主要作用是提供用于存储cookie的对象
HTTPCookieProcessor处理器:主要作用是处理这些cookie对象,并构建handler对象。
(1)cookielib库
该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar
其实大多数情况下,我们只用CookieJar(),如果需要和本地文件交互,就用 MozillaCookjar() 或 LWPCookieJar()
(2) 案例
HTTPCookieProcessor 用来配置cookie的处理器
ProxyHandler 用来配置代理
HTTPHander 用来配置http
HTTPSHander 用来配置https
cookie库的配置流程:
创建一个CookieJar对象
使用cookiejar对象,创建一个handler对象
使用handler创建一个opener
通过opener登录
handler会自动的保存登录之后的cookie
获取Cookie,并保存到CookieJar()对象中
访问网站获取cookie值,并把获得的cookie保存在cookie文件中
从文件中获取cookies,做为请求的一部分去访问
4 HTTP代理Fidder
(3)模拟登陆人人网
(4)重复使用cookie
5 ProxyHandler处理器
(1) 代理 IP
使用代理IP,这是爬虫/反爬虫的第二大招,通常也是最好用的。
很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个IP的访问。
所以我们可以设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁止,依然可以换个IP继续爬取。urllib中通过ProxyHandler来设置使用代理服务器,下面代码说明如何使用自定义opener来使用代理:
免费短期代理网站举例:
(2)HTTPPasswordMgrWithDefaultRealm()
HTTPPasswordMgrWithDefaultRealm()类创建一个密码管理对象,用来保存HTTP请求相关的用户名和密码,主要应用两个场景:
验证代理授权的用户名和密码(ProxyBasicAuthHandler())
验证web客户端的用户名和密码(HTTPBasicAuthHandler())
ProxyBasicAuthHandler(代理授权验证)
如果我们使用之前的代码来使用私密代理,会报HTTP 407错误,表示代理没有通过身份验证:
urllib2.HTTPError:HTTP Error 407:Proxy Authentication Required
所以我们需要改写代码,通过:
HTTPPasswordMgrWithDefaultRealm():来保存私密代理的用户密码
ProxyBasicAuthHandler():来处理代理的身份。
有些Web服务器(包括HTTP/FTP等)访问时,需要进行用户身份验证,爬虫直接访问会报HTTP 401错误,表示访问身份未经授权:
urllib2.HTTPError:HTTP Error 401:Unauthorized
如果我们有客户端的用户名和密码,我们可以通过下面的方法去访问爬取:
最后,想学习Python的小伙伴们!
请关注+私信回复:“学习”就可以拿到一份我为大家准备的Python学习资料!
pytyhon学习资料
python学习资料