Python网络爬虫与信息提取（二）——HTTP协议及Requests库的方法

knightwatch

2020-04-16

关注关注

HTTP协议及Requests库的方法

HTTP: Hypertext Transfer Protocol,超文本传输协议

HTTP是一个基于“请求与响应”模式的、无状态的应用层协议。也就是用户发出请求，服务器给出响应。无状态是指第一次请求与第二次请求之间并没有相关关联。应用层协议工作在TCP协议之上。

HTTP协议采用URL作为定位网络资源的标识。

URL格式：http://host[:port][path]

host域合法的Internet主机域名或IP地址

port域：端口号（可省），缺省端口为80

path域：请求资源的路径。资源在这样的主机或IP地址的服务器上所包含的内部路径

eg: http://www.bit.edu.cn 表示北京理工大学的校园网的首页

http://220.181.111.188/duty 指的是这样一台IP主机上，duty目录下的相关资源

HTTP URL的理解：URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源。就像电脑的一个文件一样，不过这个资源不在电脑上，而在Internet上。

HTTP协议对资源的操作

方法	说明
GET	请求获取URL位置的资源
HEAD	请求获取URL位置资源的响应消息报告，即获得该资源的头部信息（当资源很大时，难以完全拿下或者拿下的代价很大时，可以请求HEAD，能够获得头部信息，并且分析资源的大概内容）
POST	请求向URL位置的资源后附加新的数据。不改变URL位置现有的内容，在后面新增用户提交的资源
PUT	请求向URL位置存储一个资源，覆盖原URL位置的资源
PATCH	请求局部更新URL位置的资源，即改变该处资源的部分内容
DELETE	请求删除URL位置储存的资源

这6个方法就是requests库提供的6个主要函数所对应的功能。

HTTP通过这6中方法对资源进行管理，每次操作时是独立的，无状态的。

在HTTP协议的世界里，网络通道和服务器都是黑盒子，它能看到的就是URL链接，以及对URL链接的相关操作。

理解PATCH和PUT的区别：

假设URL位置有一组数据UsreInfo，包括UserI、UserName等20个字段。

需求：用户修改了UserName，其他不变

1：采用PATCH，仅向URL提交UserName的局部更新请求。

2：采用PUT，必须将所有20个字段一并提交到URL，未提交字段将被删除

PATCH最主要好处：节省网络带宽

HTTP协议与Requests库

HTTP协议方法	Requests库方法	功能一致性
GET	requests.get()	一致
HEAD	requests.head()	一致
POST	requests.post()	一致
PUT	requests.put()	一致
DELETE	requests.delete()	一致
PATCH	requests.patch()	一致

Requests库的head()方法

Python网络爬虫与信息提取（二）——HTTP协议及Requests库的方法

注：倒数第二行多打了一个2(⊙﹏⊙)

Requests库的post()方法

Python网络爬虫与信息提取（二）——HTTP协议及Requests库的方法

requests.request(method,url,**kwargs)

method: 请求方式，对应get/put/post等7种

url : 拟获取页面的URL链接

**kwargs: 控制访问参数，共13个

method:请求方式

r=requests.request(‘GET’,url,**kwargs)

r=requests.request(‘HEAD’,url,**kwargs)

r=requests.request(‘POST’,url,**kwargs)

r=requests.request(‘PUT’,url,**kwargs)

r=requests.request(‘PATCH’,url,**kwargs)

r=requests.request(‘delete’,url,**kwargs)

r=requests.request(‘OPTIONS’,url,**kwargs)

OPTIONS:向服务器获取跟服务器打交道的参数，并不与获取资源直接相关，因此使用较少

**kwargs:控制访问参数（13个），均为可选项

1:params 字典或字节序列，作为参数增加到url中

Python网络爬虫与信息提取（二）——HTTP协议及Requests库的方法

2：data 字典、字节序列或文件对象，作为Request的内容

Python网络爬虫与信息提取（二）——HTTP协议及Requests库的方法

3：json : JSON格式的数据，作为Request的内容，向服务器提交

JSON是HTTP,HTML相关的web开发中非常常见，也是HTTP协议最经常使用的数据格式

Python网络爬虫与信息提取（二）——HTTP协议及Requests库的方法

4：headers : 字典，HTTP定制头。对应于向某个url访问时所发起的HTTP的头字段。

就是可以使用这个字段来定制访问某一个url的HTTP协议头

Python网络爬虫与信息提取（二）——HTTP协议及Requests库的方法

5：cookies: 字典或CookieJar，Request中的cookie

6：auth : 元组，支持HTTP认证功能

7：files ：字典类型，向服务器传输文件

fs={‘file’:open(‘data.xls’,’rb’)} #用file与对应的文件做键值对，用open()方式打开这个文件

r=requests.request(‘POST’,’http://python123.io/ws’,file=fs) #可以向某一个链接提交一个文件

8：timeout: 设定的超时时间，以秒为单位

Python网络爬虫与信息提取（二）——HTTP协议及Requests库的方法

9: proxies : 字典类型，为爬取网页设定相关的访问代理服务器，可以增加登陆认证

pxs={‘http’:’http://user::1234’,’https’:’https://10.10.10.1:4321’}

r=requests.request(‘GET’,’http://www.baidu.com’,proxies=pxs)

#增加两个代理，一个是http访问时使用的代理，在这代理中可以增加用户名和密码的设置；再增加一个https的代理服务器，这样在访问百度时，我们所使用的IP地址就是代理服务器的IP地址，使用这个字段可以有效地隐藏用户爬取网页的原的IP地址信息，能够有效的防止对爬虫的逆追踪

虽然我写的时候显示TimeoutError: [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。(⊙﹏⊙)

10：allow_redirects : True/False,默认为True,重定向开关，表示是否允许对url进行重定向

11：stream : True/False ,默认为True,获取内容立即下载开关，表示对获取的内容是否立即下载

12： verify : True/False，默认为True,认证SSl证书开关，

13： cert: 保存本里SSL证书路径的字段

requests.get(url,params=None,**kwargs)

Url :拟获取页面的url链接

params :url中的额外参数，字典或字节流格式，可选

**kwargs :12个控制访问参数（除params外），与request()完全一样

requests.head(url,**kwargs)

**kwargs:13个控制访问参数，与request()一样

requests.post(url,data=None,json=None,**kwargs)

**kwargs:除data,json外，与request()一样

requests.put(url,data=None,**kwargs)

**kwargs:除data外，与request()一样

requests.patch(url,data=None,**kwargs)

**kwargs:除data外，与request()一样

requests.delete(url,**kwargs)

**kwargs: 与request()一样

其实这6个方法都可以使用request()直接实现，不过每个要实现的操作都有经常使用的控制访问参数，那么这6个方式就是将经常使用的控制访问参数显式化

网络爬虫 http协议

knightwatch

0 关注 0 粉丝 0 动态

关注关注

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

今天小编给大家详细的讲解一下Scrapy爬虫框架，希望对大家的学习有帮助。Scrapy是一个使用Python编程语言编写的爬虫框架，任何人都可以根据自己的需求进行修改，并且使用起来非常的方便。它可以应用在数据采集、数据挖掘、网络异常用户检测、存储数据等方面

CycloneKid 2020-10-27

用Python网络爬虫来看看最近电影院都有哪些上映的电影

猫眼电影是淘宝联合打造电影分类最全的电影的平台，能够第一时间告知用户，最新的电影上线时间。今天教大家获取猫眼电影的即将上映的电影详情。1）基准xpath节点对象列表。

jling 2020-09-17

大数据获取案例：Python网络爬虫实例

网络爬虫，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。用来获取新冠肺炎的实时数据。使用的工具PyCharm新建Python文件，命名为get_data使用爬虫最常用的request模

fengling 2020-08-15

python网络爬虫——requests模块（第二章）

requests模块是python中原生的基于网络请求的模块，其主要作用是用来模拟浏览器发起请求。功能强大，用法简洁高效。在爬虫领域中占据着半壁江山的地位。服务器端检测到该次请求不是基于浏览器访问。本身是请求头中的一个信息。对方服务器端会检测请求载体的身份

我欲疾风前行 2020-06-18

企业级Python开发大佬利用网络爬虫技术实现自动发送天气预告邮件

前天小编带大家利用Python网络爬虫采集了天气网的实时信息，今天小编带大家更进一步，将采集到的天气信息直接发送到邮箱，带大家一起嗨~~拓展来说，这个功能放在企业级角度来看，只要我们拥有客户的邮箱，之后建立邮箱数据库，然后我们就可以通过网络爬虫将采集到的信

我欲疾风前行 2020-06-04

1、网络爬虫

　　网络爬虫，是一种按照一定的规则，自动的抓取万维网信息的程序或脚本。它是一种按照一定的规则，自动地抓取万维网信息的程序或者脚木，可以自动采集所有其能够访问到的页而内容，以获取相关数据。

athrenzala 2020-05-30

Python网络爬虫四大选择器（正则表达式、BS4、Xpath、CSS）总结

前几天小编连续写了四篇关于Python选择器的文章，分别用正则表达式、BeautifulSoup、Xpath、CSS选择器分别抓取京东网的商品信息。今天小编来给大家总结一下这四个选择器，让大家更加深刻的理解和熟悉Python选择器。正则表达式为我们提供了抓

zengni 2020-05-29

python系列整理---爬虫

　　一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。由于商业原因，它们的技术细节很少公布出来。虽然存在一定缺陷，通用网络爬虫适用于为搜索引擎搜索广泛的主题，有较强的应用价值。为提高工作效率，通用网络

sunzhihaofuture 2020-05-17

一篇文章带你用Python网络爬虫实现网易云音乐歌词抓取

前几天小编给大家分享了数据可视化分析，在文尾提及了网易云音乐歌词爬取，今天小编给大家分享网易云音乐歌词爬取方法。找到正确的URL，获取源码；利用bs4解析源码，获取歌曲名和歌曲ID；本文的目的是获取网易云音乐的歌词，并将歌词存入到本地文件。本文以民谣歌神赵

hilary0 2020-05-15

《肖申克的救赎》百度百科网络爬虫

<!doctype html>. margin: 0;width: 780px;height: 50px;margin: 150px auto 75px;text-indent: -9999em;width: 780px;margin: 0 a

hilary0 2020-05-04

网络爬虫百度新闻标题及链接爬取

　　我的本意是只要链接的那部分属性，经过反复看视频和多次的实验终于解决了这个难题，形成了开头那个样子。　　但是开头和结尾还是有多余的部分不知道怎么解决，求助！

hilary0 2020-05-03

理解网络爬虫

我们现在生活在一个数据爆发的时代，日益增长的数据太过繁杂，人们如何能获取有效的知识和数据，这是个问题，所以爬虫应运而起，近几年网络爬虫的需求更加呈现井喷之势，但是由于应聘者的能力低于企业的需求，传统的爬虫有百度、Google、必应等搜索引擎，这类通用的搜索

fangjack 2020-04-22

python网络爬虫与信息提取mooc------爬取实例

wd=keyword. q=keyword. print("爬取失败")--------------------------------------------------. ip=ipaddress. ip="

宿舍 2020-03-06

Python——网络爬虫，一个简单的通用代码框架

三、总结异常情况的原因多样，通用代码框架并不能包含全部异常，代码写正确才是王道

qyf 2020-03-01

网络爬虫（二）

在我们抓取到页面之后，还需要对页面进行解析。整个页面都是字符串的形式，可以使用字符串处理工具来解析页面，也可以使用正则表达式，但这些方法都会带来很大的开发成本。所以我们需要一款准们解析 html 页面的工具。jsoup是一款 java 的 HTML 解析器

四叶草 2020-02-15

网络爬虫（一）- 基本使用

基本使用与get相同把HttpGet改为HttpPost就可以了。

四叶草 2020-02-15

python网络爬虫（二）requests库的基本介绍和使用

　　　　　　　① url:拟获取页面的url链接。　　　　　　　　该地址就叫URL，它是WWW的统一资源定。　　　　　　　　位标志，就是指网络地址。　　　　　　　③ **kwargs：12个控制访问的参数。　　　　对应HTTP协议的HEAD操作 . 　　　

oXiaoChong 2020-02-14

网络爬虫学习——抓取猫眼电影排行

　　write()方法：将指定内容写入文件，使用方式：write，content为指定内容，注意：如果文件不存在那么创建，如果存在那么就先清空文件(覆盖)，然后写入数据到文件里。　　json全称为JavaScript Object Notation，Jav

四叶草 2020-01-30

Requests库网络爬虫实战

kv = {‘user-agent‘ :‘Mozilla/5.0‘}. 实例三：百度360搜索关键词提交。#设置爬取图片的存储位置及名称，名称可以使用图片原有的名称也可以自定义。path = root + url.split(‘/‘)[-1]

qyf 2020-01-30