Python爬虫：UrlLib库的高级使用

dengfeng0

2019-06-22

UrlLib库的高级使用

1. Headers设置

有很多网站为了防止程序爬虫爬网站造成网站瘫痪，会需要携带一些headers头部信息才能访问，最长见的有user-agent参数

# -*- coding:UTF-8 -*-
# urllib.request 请求模块
# import urllib.request
# import urllib.parse
# 以上2个导入可以合并为
from urllib import request, parse
import ssl
content = ssl._create_unverified_context()
url = 'https://httpbin.org/post'
headers = {
 'User-Agent': 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)',
 'Host': 'httpbin.org'
}
params = {
 'name': '高效码农'
}
data = bytes(parse.urlencode(params), encoding='utf8')
req = request.Request(url=url, data=data, headers=headers, method='POST')
response = request.urlopen(req, context=content)
print(response.read())

运行结果：

{
 "args": {},
 "data": "",
 "files": {},
 "form": {
 "name": "高效码农"
 },
 "headers": {
 "Accept-Encoding": "identity",
 "Content-Length": "41",
 "Content-Type": "application/x-www-form-urlencoded",
 "Host": "httpbin.org",
 "User-Agent": "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)"
 },
 "json": null,
 "origin": "222.XXX.XXX.46, 222.XXX.XXX.46",
 "url": "https://httpbin.org/post"
}

2. Proxy（代理）的设置

网站会检测某一段时间某个IP 的访问次数，如果访问次数过多，它会禁止你的访问,所以这个时候需要通过设置代理来爬取数据

# -*- coding: UTF-8 -*-
import urllib.request
# 构建了代理Handler
proxy_handler = urllib.request.ProxyHandler({
 'http':'http://163.125.221.128:8118/',
})
# 创建自定义opener对象
opener = urllib.request.build_opener(proxy_handler)
response = opener.open('http://httpbin.org/get')
print(response.read())

运行结果：

{
"args": {},
"headers": {
"Accept-Encoding": "identity",
"Host": "httpbin.org",
"User-Agent": "Python-urllib/3.7"
},
"origin": "163.125.221.128, 163.125.221.128",
"url": "https://httpbin.org/get"
}

这里有可能报错 HTTP Error 503: Too many open connections 可能是因为使用的免费动态代理IP设置了并发数

3. cookie,HTTPCookiProcessor

cookie中保存中我们常见的登录信息，有时候爬取网站需要携带cookie信息访问,这里用到了http.cookijar，用于获取cookie以及存储cookie

# -*_ coding:UTF-8 -*-
import http.cookiejar, urllib.request
# 创建一个CookieJar类
cookie = http.cookiejar.CookieJar()
# HTTPCookieProcessor
handler = urllib.request.HTTPCookieProcessor(cookie)
# 创建一个OpenerDirector类
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
for item in cookie:
 print(item.name+"="+item.value)

运行结果：

BAIDUID=19C8971FC1A9C9562D9F24002AA9A54F:FG=1
BIDUPSID=19C8971FC1A9C9562D9F24002AA9A54F
H_PS_PSSID=1425_21092_18560_28607_28585_26350_28518_28626_28606
PSTM=1552363396
delPer=0
BDSVRTM=0
BD_HOME=0

4. 异常处理

在很多时候我们通过程序访问页面的时候，有的页面可能会出现错误，类似404，500等错误

# -*- coding:UTF-8 -*-
from urllib import request, error
try:
 response = request.urlopen('http://pythonsite.com/1111.html')
except error.URLError as e:
 print(e.reason)

运行结果：

Not Found

在urllb中有三个异常错误类：URLError、HTTPError、ContentTooShortError

URLError里只有一个属性：reason,即抓异常的时候只能打印错误信息，类似上面的例子
HTTPError里有三个属性：code,reason,headers，即抓异常的时候可以获得code,reson，headers三个信息，例子如下：

try:
 response = request.urlopen('http://pythonsite.com/1111.html')
except error.HTTPError as e:
 print(e.reason)
 print(e.code)
 print(e.headers)

运行结果：

Not Found
404
Date: Tue, 12 Mar 2019 05:52:30 GMT
Server: Apache
Vary: Accept-Encoding
Content-Length: 207
Connection: close
Content-Type: text/html; charset=iso-8859-1

5. URL解析

urlparse:URL解析功能侧重于将URL字符串拆分为其组件，或者将URL组件组合为URL字符串。

# -*- coding:UTF-8 -*-
from urllib.parse import urlparse
result = urlparse('http://www.baidu.com/index.html;user?id=5#comment')
print(result)

运行结果：

ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html', params='user', query='id=5', fragment='comment')

协议：http

位置：www.baidu.com

路径：/index.html

参数：params='user'

查询：query='id=5'

片段：fragment='comment'

urlunparse：功能和urlparse的功能相反，它是用于拼接

# urlunparse
data = ['http','xugj520.cn', 'index.html', 'user','a=123','commit']
print(urlunparse(data))

运行结果：

http://xugj520.cn/index.html;user?a=123#commit

urlencode:这个方法可以将字典转换为url参数

# urlencode
params = {
 'name':'高效码农',
 'blog':'xugj520.cn'
}
base_url = 'https://xugj520.cn?'
url = base_url + urlencode(params)
print(url)

运行结果：

https://xugj520.cn?name=%E9%AB%98%E6%95%88%E7%A0%81%E5%86%9C&blog=xugj520.cn

python爬虫 url urllib python response

dengfeng0

0 关注 0 粉丝 0 动态

关注关注

用urllib库几行代码实现最简单爬虫

使用urllib.request()请求一个网页内容，并且把内容打印出来。# 存取到内存当中是bytes流，使用read方法把rsp的内容读取出来，赋值给变量html。# 使用decode解码成我们能够看懂的格式。D:\ProgramData\Anacon

sunzhihaofuture 2020-07-19

scrapy 管理部署的爬虫项目的python类

还有部分api接口没有添加进来,可以参照官方的文档添加.

hilary0 2020-07-05

深度优先、广度优先python爬虫

搜索引擎课的一次小实验~以指定网址为根节点，遍历访问 50 个页面并爬取这些页面上的所有网址。visited = [] # 已经访问过（爬取过）的url。end_flag = False # 标志是否该结束了。req = requests.get # ve

sunzhihaofuture 2020-06-06

python爬虫 url链接编码成gbk2312格式

3. 那么=%B9%FA%CE%F1%D4%BA%B7%A2%D5%B9%D1%D0%BE%BF%D6%D0%D0%C4是什么东西啊

oXiaoChong 2020-06-05

Python除了做爬虫抓数据还能做什么？其实还能监视和衡量网站性能

借助这份对初学者友好的指南，您可以构建自己的自定义Python脚本来自动测量网站的关键速度和性能指标。在过去的一个月中，Google宣布了许多通过关键速度和性能指标来衡量用户体验的方法。巧合的是，我一直在努力编写一个Python脚本，该脚本使用Google

ARCXIANG 2020-06-05

Python爬虫破解登陆哔哩哔哩的方法

作为一名找不到工作的爬虫菜鸡人士来说，登陆这一块肯定是个比较大的难题。从今天开始准备一点点对大型网站进行逐个登陆破解。加深自己爬虫水平。if response_json['code'] == 0 and response_json['data']['sta

夜斗不是神 2020-11-17

python 爬虫如何实现百度翻译

本文将会通过爬虫的方式实现简单的百度翻译。本文中的代码只供学习，不允许作为于商务作用。若有侵犯，立即删文！在网站文件中找到隐藏的免费api。传入api所需要的参数并对其发出请求。在返回的json结果里找到相应的翻译结果。进入百度翻译，随便输入一段需要翻译的

染血白衣 2020-11-16

Python爬虫 - scrapy

start_requests:可以将遍历start_urls列表，将每一个列表元素进行get请求的发送。def file_path:指定文件路径。# Don‘t forget to add your pipeline to the ITEM_PIPELIN

ZHANGRENXIANG00 2020-06-28

Python爬虫学习（二））requests库

很多情况下直接用response.text会出现乱码问题，所以常使用response.content，返回二进制格式的数据，在通过decode()转换成utf-8. 　　　解析json requests.json执行了json.loads()方法，两者执行

kikaylee 2020-05-05

可能是最全的反爬虫及应对方案

爬虫是 Python 的一个常见应用场景，很多练习项目就是让大家去爬某某网站。爬取网页的时候，你大概率会碰到一些反爬措施。这种情况下，你该如何应对呢？本文梳理了常见的反爬措施和应对方案。很多网站都会建立 user-agent白名单，只有属于正常范围的use

ARCXIANG 2020-11-02

Python爬虫遇到验证码的几种处理方式，文章末尾有源码

不管这些了，无所谓的东西，这边博客，将处理图片验证码的2个比较优秀的方式进行了一次封装, 分别是百度的aip 和一个最近火起来的识别muggle-ocr. 本篇文章介绍了爬虫中验证码的处理方式，并把这些功能封装起来，供我们使用，涉及到百度AIP的

ARCXIANG 2020-10-28

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

今天小编给大家详细的讲解一下Scrapy爬虫框架，希望对大家的学习有帮助。Scrapy是一个使用Python编程语言编写的爬虫框架，任何人都可以根据自己的需求进行修改，并且使用起来非常的方便。它可以应用在数据采集、数据挖掘、网络异常用户检测、存储数据等方面

CycloneKid 2020-10-27

Python爬虫入门教程！手把手教会你爬取网页数据

这里的“技术手段”就是网络爬虫。今天就给大家分享一篇爬虫基础知识和入门教程：。爬虫就是自动获取网页内容的程序，例如搜索引擎，Google，Baidu 等，每天都运行着庞大的爬虫系统，从全世界的网站中爬虫数据，供用户检索时使用。Requests 库是 Py

荒谬小孩 2020-10-26

Python快速上手爬虫的7大技巧

Python应用最多的场景还是Web快速开发、爬虫、自动化运维。爬虫在开发过程中也有很多复用的过程，这里总结一下，以后也能省些事情。关键在于CookieJar()，它用于管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请

逍遥友 2020-10-26

只听说过用Python做爬虫，Java程序员笑了！

本文转载自微信公众号「Java极客技术」，作者鸭血粉丝。网络爬虫技术，早在万维网诞生的时候，就已经出现了，今天我们就一起来揭开它神秘的面纱!的确，pyhton 在处理网页方面，有着开发简单、便捷、性能高效的优势!但是我们 java 也不赖，在处理复杂的网

snakeson 2020-10-09

快速指南：如何创建基于Python的爬虫

Web抓取的使用正在积极增加，特别是在大型电子商务公司中，Web抓取是一种收集数据以竞争，分析竞争对手和研究新产品的方式。Web抓取是一种从网站提取信息的方法。在本篇文章中，学习如何创建基于Python的刮板。深入研究代码，看看它是如何工作的。在当今的大数

meylovezn 2020-08-28

山东创睦网络科技有限公司：如何在一个月内学会爬取数据

如果你仔细观察，就不难发现，懂爬虫、学习爬虫的人越来越多，一方面，互联网可以获取的数据越来越多，另一方面，像 Python这样的编程语言提供越来越多的优秀工具，让爬虫变得简单、容易上手。爬虫是入门Python最好的方式，没有之一。因为这个过程中，Pytho

囧芝麻 2020-08-17

python爬虫一般用什么框架?六大Python框架

python爬虫可以使用的框架有很多，一般在大型需求的时候才会使用python爬虫框架。　　Scrapy：一个为了爬取网站数据，提取结构性数据而编写的应用框架。应用在数据挖掘、信息处理或者存储历史数据等一系列程序中。是很强大的爬虫框架，可以满足简单的页面爬

数据挖掘工人 2020-08-15

python爬虫使用lxml解析数据编码乱码问题

response = requests.get(url=url, headers=headers).text. name = html.xpath("/html/body/div[2]/ul/li[1]/a/p/text()")[0].

cxcxrs 2020-07-28

如何用一行代码让gevent爬虫提速100%

用python做网络开发的人估计都听说过gevent这个库，gevent是一个第三方的python协程库，其是在微线程库greenlet的基础上构建而成，并且使用了epoll事件监听机制，这让gevent具有很好的性能并且比greenlet更好用。基于li

dashoumeixi 2020-07-20

安科网

Python爬虫：UrlLib库的高级使用

dengfeng0

UrlLib库的高级使用

dengfeng0

相关推荐

用urllib库几行代码实现最简单爬虫

scrapy 管理部署的爬虫项目的python类

深度优先、广度优先python爬虫

python爬虫 url链接编码成gbk2312格式

Python除了做爬虫抓数据还能做什么？其实还能监视和衡量网站性能

Python爬虫破解登陆哔哩哔哩的方法

python 爬虫如何实现百度翻译

Python爬虫 - scrapy

Python爬虫学习（二））requests库

可能是最全的反爬虫及应对方案

Python爬虫遇到验证码的几种处理方式，文章末尾有源码

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

Python爬虫入门教程！手把手教会你爬取网页数据

Python快速上手爬虫的7大技巧

只听说过用Python做爬虫，Java程序员笑了！

快速指南：如何创建基于Python的爬虫

山东创睦网络科技有限公司：如何在一个月内学会爬取数据

python爬虫一般用什么框架?六大Python框架

python爬虫使用lxml解析数据编码乱码问题

如何用一行代码让gevent爬虫提速100%

dengfeng0