python3使用urllib模块制作网络爬虫

HopKins

2016-04-08

urllib

urllib模块是python3的URL处理包

其中：

1、urllib.request主要是打开和阅读urls

个人平时主要用的1：

打开对应的URL：urllib.request.open(url)

用urllib.request.build_opener([handler, ...])，来伪装成对应的浏览器

import urllib
#要伪装成的浏览器(我这个是用的chrome)
headers = ('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36')
url='http://hotels.ctrip.com/'
opener = urllib.request.build_opener()
#将要伪装成的浏览器添加到对应的http头部
opener.addheaders=[headers]
#读取相应的url
data = opener.open(url).read()
#将获得的html解码为utf-8
data=data.decode('utf-8')
print(data)

2、urllib.parse主要是用来解析url

主要方法：

urllib.parse.urlparse(urlstring)

功能：将对应的URL解析成六部分，并以元组的数据格式返回来。(在功能上和urlsplit()几乎一模一样)

import urllib
o = urllib.parse.urlparse('http://www.cwi.nl:80/%7Eguido/Python.html')
print(o)
print(o.path)
print(o.scheme)
print(o.port)
print(o.geturl())

对应的结果：

ParseResult(scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html', params='', query='', fragment='')
/%7Eguido/Python.html
http
80
http://www.cwi.nl:80/%7Eguido/Python.html

2、构建一个新的url――urllib.parse.urljoin(base, url)

参数：base:基本的URL链接

url:另一个url

from urllib.parse import urljoin
a=urljoin('http://www.cwi.nl/%7Eguido/Python.html', 'FAQ.html')
print(a)

结果：http://www.cwi.nl/%7Eguido/FAQ.html

这个函数在爬虫的时候应该方便多了，我之前用的是比较笨的方法直接字符串拼接

3、异常处理 urllib.error

用 try-except来捕捉异常

主要的错误方式就两种 URLError和HTTPError

因为HTTPError是URLError的子类，所以URLError应该写在HttpError后面,说白了就是找到儿子一定知道父亲，找到父亲，不一定知道儿子。

try:
  data=urllib.request.urlopen(url)
  print(data.read().decode('utf-8'))
except urllib.error.HTTPError as e:
  print(e.code)
except urllib.error.URLError as e:
  print(e.reason)

结果：[WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。

如果捕获到了HTTPError，则输出code，不会再处理URLError异常。如果发生的不是HTTPError，则会去捕获URLError异常，输出错误原因

url 网络爬虫 python3 urllib data

HopKins

0 关注 0 粉丝 0 动态

相关推荐

python网络爬虫——requests模块（第二章）

requests模块是python中原生的基于网络请求的模块，其主要作用是用来模拟浏览器发起请求。功能强大，用法简洁高效。在爬虫领域中占据着半壁江山的地位。服务器端检测到该次请求不是基于浏览器访问。本身是请求头中的一个信息。对方服务器端会检测请求载体的身份

我欲疾风前行 2020-06-18

用urllib库几行代码实现最简单爬虫

使用urllib.request()请求一个网页内容，并且把内容打印出来。# 存取到内存当中是bytes流，使用read方法把rsp的内容读取出来，赋值给变量html。# 使用decode解码成我们能够看懂的格式。D:\ProgramData\Anacon

sunzhihaofuture 2020-07-19

scrapy 管理部署的爬虫项目的python类

还有部分api接口没有添加进来,可以参照官方的文档添加.

hilary0 2020-07-05

Jquery ajax书写方法代码实例解析

Ajax在前端的应用极其广泛，因此，我们有必要对其进行总结，以方便后期的使用。　　可以异步请求服务器的数据，实现页面数据的实时动态加载，在不重新加载整个页面的情况下，可以与服务器交换数据并更新部分网页内容。jquery在全局对象jquery绑定了ajax

ppsurcao 2020-06-14

基于javascript处理二进制图片流过程详解

url += '&' + key + "=" + data[key];

87570495 2020-06-14

详解golang开发中http请求redirect的问题

后来就看了下源码，了解下请求跳转的机制。可是我只想获取第一跳的的response 的状态码。只要设置checkRedirect返回error，理论上就能实现只请求一次的目的。如果返回，则不发送下一个请求，并且返回最近的响应且其主体未关闭。

86193952 2020-10-27

nginx配置proxy_pass中url末尾带/与不带/的区别详解

proxy_pass配置中url末尾带/时，nginx转发时，会将原uri去除location匹配表达式后的内容拼接在proxy_pass中url之后。到此这篇关于nginx配置proxy_pass中url末尾带/与不带/的区别详解的文章就介绍到这了,更多

小木兮子 2020-11-11

python 下载文件的多种方法汇总

本文档介绍了 Python 下载文件的各种方式，从下载简单的小文件到用断点续传的方式下载大文件。使用 Requests 模块的 get 方法从一个 url 上下载文件，在 python 爬虫中经常使用它下载简单的网页内容。使用 python 内置的 url

HeyShHeyou 24评论 2020-11-17

Node 使用express-http-proxy 做api网关的实现

let { systemName, masterName, powers } = req.tokenDecode;

seanzed 2020-10-15

Webhooks与API的区别在哪里？

Webhooks起初看起来像是API，但它们略有不同。它们之间的主要区别在于，webhooks不需要发出请求即可获得响应，而API则需要发送请求才能获得响应。使用Webhooks可以接收，而API需要您检索。正确设置了Webhook之后，无论何时更新Git

huangliuyu00 2020-09-24

Nginx Rewrite使用场景及配置方法解析

redirect 返回302临时重定向，浏览器地址栏会显示跳转后的URL地址，爬虫不会更新自己的URL数据库

nginxs 2020-09-08

python 如何调用远程接口

在python中我们可以使用requests模块来实现调用远程接口。get方法常见的参数有url,params和headers. headers表示get传参的headers参数信息。# 接口返回的状态码。# #将字符串转字典型。# 接口返回的json格式

libaoshan 2020-09-11

python 自动提交到百度，利用百度API自动提交

sitemapUrls = re.findall('<loc>(.*?self.urls = re.findall('<loc>(.*?print("postBaidu:==========================

zhangpan 2020-09-10

ajax实现excel报表导出

项目中遇到一个场景，要导出一个excel报表。由于需要token验证，所以不能用a标签；由于页面复杂，所以不能使用表单提交。初步考虑前端使用ajax，后端返回流，定义指定的header。alert('导出失败，导出的内容为空！excel能正常导出，但下载下

chongxiaocheng 2020-08-16

ctf | php

一道难得可以看的懂的ctf题。id=1）把其中的id=1给取出来等等...下面是他的内部函数：。当我们判断s = /或者s+1 =/的时候就会仍未这是相对的url然后就取，而后认为 url 的部件从 url+2 开始。取不到应该去的值，所以导致过滤没啥用。

xcguoyu 2020-08-15

swagger报错No operations defined in spec!解决

swagger报错No operations defined in spec!一般有2个原因：。其中第2个path错误，path要是全匹配url，url是完整的，包含方法的url，本人因为path只写controller上的url，没写方法上的url，找了

Qizonghui 2020-08-02

mysql URL

characterEncoding=utf8&useUnicode=true. characterEncoding=utf8&useSSL=false&serverTimezone=UTC

ldcwang 2020-07-26

【Nginx】还不会使用Nginx解决跨域问题？肝这一篇就够了！！

作者个人研发的在高并发场景下，提供的简单、稳定、可扩展的延迟消息队列框架，具有精准的定时任务和延迟队列处理功能。自开源半年多以来，已成功为十几家中小型企业提供了精准定时调度方案，经受住了生产环境的考验。而且大部分后端服务并不会只部署一套服务，而是会采用Ng

mqfcu 2020-07-21

接口测试-url参数中出现+、空格、=、%、&、#等字符的解决办法

解决办法：在URL对应位置换成以下字符即可，对应关系如下：+ URL 中+号表示空格%2B空格URL中的空格可以用+号或者编码%20/分隔目录和子目录%2F?分隔实际的URL和参数%3F% 指定特殊字符%25# 表示书签%23& URL 中指定的参

jeason 2020-07-20

一个菜鸟前端的自我提升：有关http请求中的get和post请求

在http/1.0中共定义了三种请求方式：get、post、head。在http/1.1中新增了五种请求方式：options、put、delete、trace、connect。在这八种方法中get、post这两种是最常见的请求方法。而post方法数据不会显

knightwatch 2020-07-19

HopKins

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号