Python爬虫：HTTPS请求与响应+19年最全python学习资料分享！

85224059

2019-02-21

关注关注

1. HTTP和HTTPS

HTTP：一种发布和接受HTML页面方法，端口号为80

HTTPS： HTTP的安全版，在HTTP上加入了SSL层，端口号为443

SSL：用于Web的安全传输协议，在传输层对网络连接进行加密，保障在Internet上数据传输的安全

Python爬虫：HTTPS请求与响应+19年最全python学习资料分享！

网络爬虫可以理解为模拟浏览器操作的过程

浏览器的主要功能是向服务器发送请求，在浏览器窗口展示您选择的网络资源，HTTP是一套计算机通过网络进行通信的规则

1.1. HTTP的请求和响应流程：打开一个网页的过程

主要流程

Python爬虫：HTTPS请求与响应+19年最全python学习资料分享！

1.2. URL

基本格式： scheme://host[:port]/path/.../[?query-string][#anchor]

scheme:协议， http，https

host: 服务器的IP地址或者域名

port#：服务器的端口（如果是协议默认端口，缺省端口为80）

path ：访问资源的路径

query-string ：参数，发送给http服务器的数据

anchor ：锚（跳转到网页的而制定锚点位置）

2. 客户端HTTP请求

URL只是标识资源的位置，而HTTP是用来提交和获取资源. 客户端发送一个HTTP请求到服务器请求消息，包括如下格式

请求行、请求头部、空行、请求数据

Python爬虫：HTTPS请求与响应+19年最全python学习资料分享！

请求行

由请求方法字段、URL字段和HTTP协议版本字段组成，通过空格分隔，例如：GET /index.html HTTP/1.1

HTTP协议的请求方法主要有GET,POST方法

1） GET：从服务器获取数据

定义： 最常见的一种请求方式，当客户端要从服务器中读取文档时，当点击网页上的链接或者通过在浏览器的地址栏输入网址来浏览网页的，使用的都是GET方式

GET请求参数显示，都显示在浏览器网址上，HTTP服务器根据该请求所包含的URL参数来阐述响应内容，即GET请求的参数是URL的一部分：网页链接

"Get" 请求的参数是URL的一部分

2） POST：向服务器传送数据

POST请求参数在请求体中，消息长度没有限制且以隐式的方式进行发送，通过用来向HTTP服务器提交数据（上传文件等），请求的参数放在Content-Type消息头中，指明该消息的媒体类型和编码

"POST"请求的参数不在URL中，而在请求体中。

3. Fiddler抓包工具的使用

Fiddler是一款强大Web调试工具，它能记录所有客户端和服务器的HTTP请求。 Fiddler启动的时候，默认IE的代理设为了127.0.0.1:8888，而其他浏览器是需要手动设置。

3.1. 工作原理

Fiddler 是以代理web服务器的形式工作的，它使用代理地址：127.0.0.1，端口：8888

Python爬虫：HTTPS请求与响应+19年最全python学习资料分享！

3.2. Fiddler抓取HTTPS设置

首先需要在官网上下载Fiddler安装程序：网页链接

启动Fiddler，打开菜单栏中的 Tools > Telerik Fiddler Options，打开“Fiddler Options”对话框。

Python爬虫：HTTPS请求与响应+19年最全python学习资料分享！

对Fidder进行设置

打开工具栏->Tools->Fiddler Options->HTTPS，

选中Capture HTTPS CONNECTs (捕捉HTTPS连接)，

选中Decrypt HTTPS traffic（解密HTTPS通信）

另外我们要用Fiddler获取本机所有进程的HTTPS请求，所以中间的下拉菜单中选中...from all processes （从所有进程）

选中下方Ignore server certificate errors（忽略服务器证书错误）

Python爬虫：HTTPS请求与响应+19年最全python学习资料分享！

Fiddler 主菜单 Tools -> Fiddler Options…-> Connections

Python爬虫：HTTPS请求与响应+19年最全python学习资料分享！

重启Fidder

3.3. Fiddler抓取Chorme的对话

使用chorme的SwitchOmega插件 + 搭配使用SwitchOmega和Fiddler抓取数据

Python爬虫：HTTPS请求与响应+19年最全python学习资料分享！

3.4. Fidder界面介绍

设置好后，本机HTTP通信都会经过127.0.0.1:8888代理，也就会被Fiddler拦截到。

Python爬虫：HTTPS请求与响应+19年最全python学习资料分享！

请求 (Request) 部分详解

Headers —— 显示客户端发送到服务器的 HTTP 请求的 header，显示为一个分级视图，包含了 Web 客户端信息、Cookie、传输状态等。

Textview —— 显示 POST 请求的 body 部分为文本。

WebForms —— 显示请求的 GET 参数和 POST body 内容。

HexView —— 用十六进制数据显示请求。

Auth —— 显示响应 header 中的 Proxy-Authorization(代理身份验证) 和 Authorization(授权) 信息.

Raw —— 将整个请求显示为纯文本。

JSON - 显示JSON格式文件。

XML —— 如果请求的 body 是 XML 格式，就是用分级的 XML 树来显示它。

响应 (Response) 部分详解

Transformer —— 显示响应的编码信息。

Headers —— 用分级视图显示响应的 header。

TextView —— 使用文本显示相应的 body。

ImageVies —— 如果请求是图片资源，显示响应的图片。

HexView —— 用十六进制数据显示响应。

WebView —— 响应在 Web 浏览器中的预览效果。

Auth —— 显示响应 header 中的 Proxy-Authorization(代理身份验证) 和 Authorization(授权) 信息。

Caching —— 显示此请求的缓存信息。

Privacy —— 显示此请求的私密 (P3P) 信息。

Raw —— 将整个响应显示为纯文本。

JSON - 显示JSON格式文件。

XML —— 如果响应的 body 是 XML 格式，就是用分级的 XML 树来显示它。

3.5. 实例：捕捉访问百度时候的请求和响应

请求头（www.baidu.com）

Python爬虫：HTTPS请求与响应+19年最全python学习资料分享！

响应的内容（www.baidu.com）

Python爬虫：HTTPS请求与响应+19年最全python学习资料分享！

这跟我们右击游览器查看源代码出来的代码是一摸一样的

Python爬虫：HTTPS请求与响应+19年最全python学习资料分享！

4. 其他内容

4.1 Cookie和Session

Cookie: 通过客户端记录的信息确定用户的身份

Session: 通过服务器记录的信息确定用户的身份

最后，想学习Python的小伙伴们！

请关注+私信回复：“学习”就可以拿到一份我为大家准备的Python学习资料！

Python爬虫：HTTPS请求与响应+19年最全python学习资料分享！

pytyhon学习资料

Python爬虫：HTTPS请求与响应+19年最全python学习资料分享！

python学习资料

python python爬虫计算机网络 url http请求

85224059

0 关注 0 粉丝 0 动态

关注关注

Python爬虫破解登陆哔哩哔哩的方法

作为一名找不到工作的爬虫菜鸡人士来说，登陆这一块肯定是个比较大的难题。从今天开始准备一点点对大型网站进行逐个登陆破解。加深自己爬虫水平。if response_json['code'] == 0 and response_json['data']['sta

夜斗不是神 2020-11-17

python 爬虫如何实现百度翻译

本文将会通过爬虫的方式实现简单的百度翻译。本文中的代码只供学习，不允许作为于商务作用。若有侵犯，立即删文！在网站文件中找到隐藏的免费api。传入api所需要的参数并对其发出请求。在返回的json结果里找到相应的翻译结果。进入百度翻译，随便输入一段需要翻译的

染血白衣 2020-11-16

python 下载文件的多种方法汇总

本文档介绍了 Python 下载文件的各种方式，从下载简单的小文件到用断点续传的方式下载大文件。使用 Requests 模块的 get 方法从一个 url 上下载文件，在 python 爬虫中经常使用它下载简单的网页内容。使用 python 内置的 url

HeyShHeyou 2020-11-17

python 发送get请求接口详解

　　如果想用python做接口测试，我们首先有不得不了解和学习的模块。虽然Python内置的urllib模块，用于访问网络资源。但是，它用起来比较麻烦，而且，缺少很多实用的高级功能。更好的方案是使用。它是一个Python第三方库，处理URL资源特别方便。R

YENCSDN 2020-11-17

python 使用tkinter+you-get实现视频下载器

#获取屏幕尺寸以计算布局参数，使窗口居屏幕中央,其中width和height为界面宽和高。#阻止窗口调整大小

lsjweiyi 2020-11-17

python中requests模拟登录的三种方式(携带cookie/session进行请求网站)

session是在cookie的基础上，服务端设置session时会向浏览器发送设置一个设置cookie的请求，这个cookie包括session的id当访问服务端时带上这个session_id就可以获取到用户保存在服务端对应的session. 到此这篇关

houmenghu 2020-11-17

python开发一个解析protobuf文件的简单编译器

最近刚刚用python写完了一个解析protobuf文件的简单编译器，深感ply实现词法分析和语法分析的简洁方便。乘着余热未过，头脑清醒，记下一点总结和心得，方便各位pythoner参考使用。如果你不是从事编译器或者解析器的开发工作，你可能从未听说过ply

Erick 2020-11-17

Linux Shell 如何获取参数的方法

是显示最后命令的退出状态，0表示没有错误，其他表示有错误。不同点：$* 和 $@ 都表示传递给函数或脚本的所有参数，不被双引号(" ")包含时，都以"$1" "$2" …"$n"

以梦为马不负韶华 2020-10-20

python跨文件使用全局变量的实现

但是他的一大缺陷就是只能本module 中也就是本文件中使用，跳出这个module就不行。使用一个更宏观的思路，全局变量就用全局加载的模块解决，很遗憾也是不行，这样可以，但是如果再有一个module 想用呢？这样就会报错，因为import 加载就会执行一遍

lhtzbj 2020-11-17

python调用百度API实现人脸识别

# """ 你的 APPID AK SK """. # img = Image.fromarray #将每一帧转为Image. # output_buffer = BytesIO() #创

pythonjw 2020-11-17

Python调用ffmpeg开源视频处理库，批量处理视频

strcmd = r'ffprobe -print_format json -show_streams -i "{}"'.format. strcmd = 'ffmpeg -i "{}" -vcodec copy -

dingwun 2020-11-16

详解python os.path.exists判断文件或文件夹是否存在

os即operating system，Python 的 os 模块封装了常见的文件和目录操作。os.path模块主要用于文件的属性获取,exists是“存在”的意思，所以顾名思义，os.path.exists()就是判断括号里的文件是否存在的意思，括号内

lhxxhl 2020-11-16

python实现在列表中查找某个元素的下标示例

列表中字符和数字都有。使用python的内建函数enumerate

sunskyday 2020-11-16

python如何获得list或numpy数组中最大元素对应的索引

#表示最大值在第二行第二列

sizhixht 2020-11-16

Python实现列表索引批量删除的5种方法

开头，如果不仔细看好像没什么问题。但是结果却是错误的。将 listObj.remove() 改为listObj.pop结果也是相同的。Java用同样的编程思想，得到的结果也有相似性。这种错误，主要是初学者对于数据存储原理没有理解清楚，或者，没有意识到内存存

坚持是一种品质 2020-11-16

致命错误！Python开发者的7个崩溃瞬间

本文转载自公众号“读芯术”。毫无疑问，Python是当今使用最为广泛的编程语言。但无论你经验多丰富，或是已使用过多少种语言，切换到Python时都不能保证非常顺利。具有面向对象编程背景的开发人员容易忽略Python的惯用特性，很可能会滥用编程结构，从而产生

huavhuahua 2020-11-20

针对Python开发人员的10个“疯狂”的项目构想

最棒的是，你可以通过这些有趣但也具有挑战性的项目来增强 Python 编程技能。你知道 Python 是被称为全能编程语言的吗？是的，它确实是，虽然不应该在每个项目中都使用它。你可以使用它来创建桌面应用程序、游戏、移动应用程序、网站和系统软件。它甚至是

meylovezn 2020-11-20

用Python内置模块处理ini配置文件

开发人员每天都在处理一些大型而复杂的项目，而配置文件会帮到我们并节省不少时间。在处理配置文件过程中，无需更改源代码本身，只需要调整配置文件即可访问不同的API接口、更新基础URL信息或其它事情。尽管可以通过多种方式来支持软件中的配置文件，包括JSON，

逍遥友 2020-11-20

VS Code 中 Python 扩展的部分功能重构，支持 R 和 Julia

11 月 12 日，微软将 Jupyter Notebook 支持从 Python 扩展中独立出来，发布新的 Jupyter 扩展，支持智能感知，调试等功能的交互式编程和计算。Jupyter 扩展通过新的“ Native Notebooks Experi

weiiron 2020-11-16

Python五个隐藏的特性，你可能从未听说过

在本文中，我将向您展示Python中很常见的5个特性。有经验的Python开发人员可能认识其中一些。然而，这对其他人仍将是未知的。是的，你没看错，在Python中...是一个有效的构造。...是称为省略号的单例对象。如果你把它输入到Python解释器中，你

Yasin 2020-11-16

安科网

Python爬虫：HTTPS请求与响应+19年最全python学习资料分享！

85224059

1. HTTP和HTTPS

主要流程

2. 客户端HTTP请求

3. Fiddler抓包工具的使用

最后，想学习Python的小伙伴们！

请关注+私信回复：“学习”就可以拿到一份我为大家准备的Python学习资料！

85224059

相关推荐

Python爬虫破解登陆哔哩哔哩的方法

python 爬虫如何实现百度翻译

python 下载文件的多种方法汇总

python 发送get请求接口详解

python 使用tkinter+you-get实现视频下载器

python中requests模拟登录的三种方式(携带cookie/session进行请求网站)

python开发一个解析protobuf文件的简单编译器

Linux Shell 如何获取参数的方法

python跨文件使用全局变量的实现

python调用百度API实现人脸识别

Python调用ffmpeg开源视频处理库，批量处理视频

详解python os.path.exists判断文件或文件夹是否存在

python实现在列表中查找某个元素的下标示例

python如何获得list或numpy数组中最大元素对应的索引

Python实现列表索引批量删除的5种方法

致命错误！Python开发者的7个崩溃瞬间

针对Python开发人员的10个“疯狂”的项目构想

用Python内置模块处理ini配置文件

VS Code 中 Python 扩展的部分功能重构，支持 R 和 Julia

Python五个隐藏的特性，你可能从未听说过

85224059