别走弯路了！看这篇文章，学习python爬虫就像1+1=2一样简单！

orlandowww

2019-04-22

关注关注

urllib是基于http的高层库，它有以下三个主要功能：

（1）request处理客户端的请求

（2）response处理服务端的响应

（3）parse会解析url

一、爬取网页内容

我们知道，网页上呈现的优美页面，本质都是一段段的HTML代码，加上JS 、CSS等，本人也是刚开始学python，这个文章也比较小白，资深老鸟请忽略~~。

本文所说的代码都是基于python3的，使用phython2的请注意

python 3.x中urllib库和urilib2库合并成了urllib库

其中urllib2.urlopen()变成了urllib.request.urlopen()

urllib2.Request()变成了urllib.request.Request()

那么获取网页有哪一些方法呢？这里列举了三种方法，具体查看代码。

import urllib.requestimport http.cookiejarurl = '直接通过url来获取网页数据print('第一种 ：直接通过url来获取网页数据')response = urllib.request.urlopen(url)html = response.read()

将上面的代码copy之后，在pycharm新建一个python项目，如下图，新建一个python file ，命名为demo.py 黏贴上面的代码

别走弯路了！看这篇文章，学习python爬虫就像1+1=2一样简单！

右键运行改文件，我们就可以从控制台获取到整个网页内容了

别走弯路了！看这篇文章，学习python爬虫就像1+1=2一样简单！

或者打开pycharm的terminal窗口，输入

python demo.py

别走弯路了！看这篇文章，学习python爬虫就像1+1=2一样简单！

copy上面网页内容，然后黏贴到下面的在线HTML 运行工具

别走弯路了！看这篇文章，学习python爬虫就像1+1=2一样简单！

运行之后我们可以看到下图网址部分是本地的，对比网页的百度，发现底部的那些网页新闻不见了，因为我们抓取的是静态网页呀，动态网页需要的一些参数，要如何传递给他，下面有简单的解释。利用这个我们也可以只抓取我们需要的静态网页，相当于做了一些去广告之类的。。。。。

别走弯路了！看这篇文章，学习python爬虫就像1+1=2一样简单！

从代码看出，上面使用的urlopen方法，传入一个URL，这个网址是百度首页，协议是HTTP协议，当然你也可以把HTTP换做FTP,FILE,HTTPS 等等，只是代表了一种协议，urlopen一般接受三个参数，它的参数如下：

urlopen(url, data, timeout)

第一个参数url即为URL，第二个参数data是访问URL时要传送的数据，第三个timeout是设置超时时间。

第二三个参数是可以不传送的，data默认为空None，timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT

第一个参数URL是必须要传送的，在这个例子里面我们传送了百度的URL，执行urlopen方法之后，返回一个response对象，返回信息便保存在这里面。

response.read()

response对象有一个read方法，可以返回获取到的网页内容，我们可以的到一个HTML格式的文档。

二、构造Request

其实上面的urlopen参数也可以传入一个Request类的实例，我们构造request时需要传入Url,Data等等的内容。

import urllib.request req = urllib.request.Request(')

三、发送数据

数据传送最基本的就是POST和GET两种方式，其他方式这里也不进行扩展。

这里我们结合CSDN的登录进行介绍

打开以下网页我们可以看到需要我们输入一个是账号，一个是密码。

别走弯路了！看这篇文章，学习python爬虫就像1+1=2一样简单！

点击登录之后，网页就是利用post的方式，把上面两个输入项作为参数，动态的发送过去了。

import urllib.parseimport urllib.requestvalues = {}

运行之后我们发现又跳回了登录界面，里面我们看到返回网页中有这么一段注释：

&lt;!-- 该参数可以理解成每个需要登录的用户都有一个流水号。只有有了webflow发放的有效的流水号，用户才可以说明是已经进入了webflow流程。否则，没有流水号的情况下，webflow会认为用户还没有进入webflow流程

于是我们需要添加这个参数，然后登录就成功了，请看代码

import urllib.parse, urllib.request, http.cookiejar, re

别走弯路了！看这篇文章，学习python爬虫就像1+1=2一样简单！

GET方式：

上面我们使用的是post的形式的，至于GET方式区别就是在URL上，我们如果直接把参数写到网址上面，构建一个带参数的URL。

values={}

四、添加头部

从上面的代码我们可以知道，可以使用build_opener 获取到opener对象，来添加头部

cookie = http.cookiejar.CookieJar()

五、http 错误

import urllib.request req = urllib.request.Request(' ')

六、异常处理

except HTTPError as e:

except URLError as e:

from urllib.request import Request, urlopen

except URLError as e:

if hasattr(e, 'reason'):

elif hasattr(e, 'code'):

from urllib.request import Request, urlopen

七、HTTP 认证

import urllib.request

八、使用代理

import urllib.request proxy_support = urllib.request.ProxyHandler({'sock5': 'localhost:1080'})

九、超时

import socket

最后柠檬为大家准备了一些python的学习教程分享，希望可以帮助到大家。

别走弯路了！看这篇文章，学习python爬虫就像1+1=2一样简单！

获取方式：请大家转发+关注并私信小编关键词：“资料”即可获取。

别走弯路了！看这篇文章，学习python爬虫就像1+1=2一样简单！

python python爬虫

安科网

别走弯路了！看这篇文章，学习python爬虫就像1+1=2一样简单！

orlandowww

最后柠檬为大家准备了一些python的学习教程分享，希望可以帮助到大家。

获取方式：请大家转发+关注并私信小编关键词：“资料”即可获取。

orlandowww

相关推荐

Python爬虫破解登陆哔哩哔哩的方法

python 爬虫如何实现百度翻译

python 发送get请求接口详解

python 使用tkinter+you-get实现视频下载器

python中requests模拟登录的三种方式(携带cookie/session进行请求网站)

python开发一个解析protobuf文件的简单编译器

python 下载文件的多种方法汇总

Linux Shell 如何获取参数的方法

python跨文件使用全局变量的实现

python调用百度API实现人脸识别

Python调用ffmpeg开源视频处理库，批量处理视频

详解python os.path.exists判断文件或文件夹是否存在

python实现在列表中查找某个元素的下标示例

python如何获得list或numpy数组中最大元素对应的索引

Python实现列表索引批量删除的5种方法

致命错误！Python开发者的7个崩溃瞬间

针对Python开发人员的10个“疯狂”的项目构想

用Python内置模块处理ini配置文件

VS Code 中 Python 扩展的部分功能重构，支持 R 和 Julia

Python五个隐藏的特性，你可能从未听说过

orlandowww