python 爬虫入门知识（文末附赠python教程分享）

乐想屋

2019-03-04

关注关注

1 自定义opener

opener是 urllib.request.OpenerDirector 的实例，我们之前一直都在使用的urlopen，它是一个特殊的模块构建好的opener

但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能：

（1）使用相关的 Handler处理器来创建特定功能的处理器对象；

（2）然后通过 urllib.request.build_opener()方法使用这些处理器对象，创建自定义opener对象；

（3）使用自定义的opener对象，调用open()方法发送请求。

如果程序里所有的请求都使用自定义的opener，可以使用urllib.request.install_opener() 将自定义的 opener 对象定义为全局opener，表示之后凡是调用urlopen，都将使用这个opener来打开

在urllib库中，给我们提供了一些Handler：HTTPHandler，HTTPSHandler，ProxyHandler，BaseHandler，AbstractHTTPHandler，FileHandler，FTPHandler，分别用于处理HTTP，HTTPS，Proxy代理等。

python 爬虫入门知识（文末附赠python教程分享）

如果在 HTTPHandler()增加 debuglevel=1参数，还会将 Debug Log 打开，这样程序在执行的时候，会把收包和发包的报头在屏幕上自动打印出来，方便调试，有时可以省去抓包的工作。

python 爬虫入门知识（文末附赠python教程分享）

2 Cookie概述

Cookie 是指某些网站服务器为了辨别用户身份和进行Session跟踪，而储存在用户浏览器上的文本文件，Cookie可以保持登录信息到用户下次与服务器的会话。

(1) Cookie原理

HTTP是无状态的面向连接的协议, 为保持连接状态, 引入Cookie机制 Cookie是http消息头中的一种属性，包括：

python 爬虫入门知识（文末附赠python教程分享）

Cookie由变量名和值组成,Cookie格式如下：

python 爬虫入门知识（文末附赠python教程分享）

(2) cookie应用

Cookies在爬虫方面最典型的应用是判定注册用户是否已经登录网站，用户可能会得到提示，是否在下一次进入此网站时保留用户信息以便简化登录手续。

python 爬虫入门知识（文末附赠python教程分享）

但是这样做太过复杂，我们先需要在浏览器登录账户，并且设置保存密码，并且通过抓包才能获取这个Cookie，那有么有更简单方便的方法呢？

3 cookielib库和HTTPCookieProcessor处理器

在Python处理Cookie，一般是通过cookielib模块和 urllib模块的HTTPCookieProcessor处理器类一起使用

cookielib模块：主要作用是提供用于存储cookie的对象

HTTPCookieProcessor处理器：主要作用是处理这些cookie对象，并构建handler对象。

（1）cookielib库

该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar

python 爬虫入门知识（文末附赠python教程分享）

其实大多数情况下，我们只用CookieJar()，如果需要和本地文件交互，就用 MozillaCookjar() 或 LWPCookieJar()

(2) 案例

HTTPCookieProcessor 用来配置cookie的处理器

ProxyHandler 用来配置代理

HTTPHander 用来配置http

HTTPSHander 用来配置https

cookie库的配置流程:

创建一个CookieJar对象

使用cookiejar对象，创建一个handler对象

使用handler创建一个opener

通过opener登录

handler会自动的保存登录之后的cookie

获取Cookie，并保存到CookieJar()对象中

python 爬虫入门知识（文末附赠python教程分享）

访问网站获取cookie值，并把获得的cookie保存在cookie文件中

python 爬虫入门知识（文末附赠python教程分享）

从文件中获取cookies，做为请求的一部分去访问

python 爬虫入门知识（文末附赠python教程分享）

4 HTTP代理Fidder

python 爬虫入门知识（文末附赠python教程分享）

（3）模拟登陆人人网

python 爬虫入门知识（文末附赠python教程分享）

（4）重复使用cookie

python 爬虫入门知识（文末附赠python教程分享）

5 ProxyHandler处理器

(1) 代理 IP

使用代理IP，这是爬虫/反爬虫的第二大招，通常也是最好用的。

很多网站会检测某一段时间某个IP的访问次数(通过流量统计，系统日志等)，如果访问次数多的不像正常人，它会禁止这个IP的访问。

所以我们可以设置一些代理服务器，每隔一段时间换一个代理，就算IP被禁止，依然可以换个IP继续爬取。urllib中通过ProxyHandler来设置使用代理服务器，下面代码说明如何使用自定义opener来使用代理：

python 爬虫入门知识（文末附赠python教程分享）

免费短期代理网站举例：

python 爬虫入门知识（文末附赠python教程分享）

（2）HTTPPasswordMgrWithDefaultRealm()

HTTPPasswordMgrWithDefaultRealm()类创建一个密码管理对象，用来保存HTTP请求相关的用户名和密码，主要应用两个场景：

验证代理授权的用户名和密码(ProxyBasicAuthHandler())

验证web客户端的用户名和密码(HTTPBasicAuthHandler())

ProxyBasicAuthHandler(代理授权验证)

如果我们使用之前的代码来使用私密代理，会报HTTP 407错误，表示代理没有通过身份验证：

urllib2.HTTPError:HTTP Error 407：Proxy Authentication Required

所以我们需要改写代码，通过：

HTTPPasswordMgrWithDefaultRealm()：来保存私密代理的用户密码

ProxyBasicAuthHandler()：来处理代理的身份。

python 爬虫入门知识（文末附赠python教程分享）

有些Web服务器(包括HTTP/FTP等)访问时，需要进行用户身份验证，爬虫直接访问会报HTTP 401错误，表示访问身份未经授权：

urllib2.HTTPError:HTTP Error 401:Unauthorized

如果我们有客户端的用户名和密码，我们可以通过下面的方法去访问爬取：

python 爬虫入门知识（文末附赠python教程分享）

最后，想学习Python的小伙伴们！

请关注+私信回复：“学习”就可以拿到一份我为大家准备的Python学习资料！

python 爬虫入门知识（文末附赠python教程分享）

pytyhon学习资料

python 爬虫入门知识（文末附赠python教程分享）

python学习资料

cookie 编程语言 python python爬虫 python实例教程

安科网

python 爬虫入门知识（文末附赠python教程分享）

乐想屋

最后，想学习Python的小伙伴们！

请关注+私信回复：“学习”就可以拿到一份我为大家准备的Python学习资料！

乐想屋

相关推荐

python中requests模拟登录的三种方式(携带cookie/session进行请求网站)

Python快速上手爬虫的7大技巧

ajax请求添加自定义header参数代码

上网如何保存记录？你要知道Session和Cookie的关系

python-spider 第七关

PHP如何获取Cookie并实现模拟登录

Apache Shiro 反序列化(CVE-2016-4437)复现

Apache Shiro 反序列化(CVE-2016-4437)复现

前端登录，这一篇就够了

一文梳理Web存储，从cookie，WebStorage到IndexedDB

Flask之session

Golang保存PostgreSQL数据至结构

Session和Cookie的区别

curl 的用法指南

Redis遇到（大数据量）百亿级Key存储需求及解决方案介绍

golang之JWT实现的示例代码

Requests 设置cookies方式

django设置cookie

爬虫之selenium和webdriver—基础（三）：操作cookie和显式等待与隐式等待

Django框架11

乐想屋