python中urlparse模块介绍与使用示例

manmanoy

2017-11-19

简介

urlparse模块主要是用于解析url中的参数对url按照一定格式进行拆分或拼接。urlparse库用于把url解析为各个组件，支持file,ftp,http,https, imap, mailto, mms, news, nntp, prospero, rsync, rtsp, rtspu, sftp, shttp, sip, sips, snews, svn, svn+ssh, telnet等几乎所有的形式。

注意：根据其官网的说明，在Python3.0中，此库已经更名为urllib.parse了。

使用说明

1.urlparse.urlparse

将url分为6个部分，返回一个包含6个字符串项目的元组：协议、位置、路径、参数、查询、片段。

import urlparse
url_change = urlparse.urlparse('https://i.cnblogs.com/EditPosts.aspx?opt=1')
print url_change

输出结果为：

ParseResult(scheme='https', netloc='i.cnblogs.com', path='/EditPosts.aspx', params='', query='opt=1', fragment='')

其中 scheme 是协议 netloc 是域名服务器 path 相对路径 params是参数，query是查询的条件

urlparse.parse_qs(urlparse.urlparse(url).query)

这个是获取urlparse分割后元祖中的某一项 urlparse.urlparse(url).query 获取查询条件

parse_qs 有几种实现

urlparse.parse_qs 返回字典
urlparse.parse_qsl 返回列表

2. urlparse.urlsplit

和urlparse差不多，将url分为5部分，返回一个包含5个字符串项目的元组：协议、位置、路径、查询、片段。

import urlparse
url_change = urlparse.urlsplit('https://i.cnblogs.com/EditPosts.aspx?opt=1')
print url_change

SplitResult(scheme='https', netloc='i.cnblogs.com', path='/EditPosts.aspx', query='opt=1', fragment='')

其中 scheme 是协议 netloc 是域名服务器 path 相对路径 query是查询的条件

3.urlparse.urljoin

将相对的地址组合成一个url，对于输入没有限制，开头必须是http://，否则将不组合前面。

import urlparse
new_url = urlparse.urljoin('https://baidu.com/ssss/','88888')
print new_url

输出 https://baidu.com/ssss/88888

如果输入错误信息如 new_url = urlparse.urljoin('122','88888') 并不会将两者合并输出‘88888'

urlparse获取url后面的参数

如果给定你一个URL，比如： http://url/api?param=2&param2=4 我们需要获取参数名和参数值的话，那可以用到python标准库urlparse

import urlparse
def qs(url):
  query = urlparse.urlparse(url).query
  return dict([(k,v[0]) for k,v in urlparse.parse_qs(query).items()])

print qs('http://url/api?param=2&param2=4') 返回的结果: {'param':'2','param2':'4'}

注意：这个模块的parse_qs方法在2;5的版本是不存在的，只有2.5以上的才有，你需要调用该方法的时候可以先通过dir(urlparse)查看模块urlparse是否有相应的方法。

官方文档地址 http://docs.python.org/library/urlparse.html

总结

url python

manmanoy

0 关注 0 粉丝 0 动态

关注关注

python 下载文件的多种方法汇总

本文档介绍了 Python 下载文件的各种方式，从下载简单的小文件到用断点续传的方式下载大文件。使用 Requests 模块的 get 方法从一个 url 上下载文件，在 python 爬虫中经常使用它下载简单的网页内容。使用 python 内置的 url

HeyShHeyou 24评论 2020-11-17

详解golang开发中http请求redirect的问题

后来就看了下源码，了解下请求跳转的机制。可是我只想获取第一跳的的response 的状态码。只要设置checkRedirect返回error，理论上就能实现只请求一次的目的。如果返回，则不发送下一个请求，并且返回最近的响应且其主体未关闭。

86193952 2020-10-27

nginx配置proxy_pass中url末尾带/与不带/的区别详解

proxy_pass配置中url末尾带/时，nginx转发时，会将原uri去除location匹配表达式后的内容拼接在proxy_pass中url之后。到此这篇关于nginx配置proxy_pass中url末尾带/与不带/的区别详解的文章就介绍到这了,更多

小木兮子 2020-11-11

Node 使用express-http-proxy 做api网关的实现

let { systemName, masterName, powers } = req.tokenDecode;

seanzed 2020-10-15

Webhooks与API的区别在哪里？

Webhooks起初看起来像是API，但它们略有不同。它们之间的主要区别在于，webhooks不需要发出请求即可获得响应，而API则需要发送请求才能获得响应。使用Webhooks可以接收，而API需要您检索。正确设置了Webhook之后，无论何时更新Git

huangliuyu00 2020-09-24

Nginx Rewrite使用场景及配置方法解析

redirect 返回302临时重定向，浏览器地址栏会显示跳转后的URL地址，爬虫不会更新自己的URL数据库

nginxs 2020-09-08

python 如何调用远程接口

在python中我们可以使用requests模块来实现调用远程接口。get方法常见的参数有url,params和headers. headers表示get传参的headers参数信息。# 接口返回的状态码。# #将字符串转字典型。# 接口返回的json格式

libaoshan 2020-09-11

python 自动提交到百度，利用百度API自动提交

sitemapUrls = re.findall('<loc>(.*?self.urls = re.findall('<loc>(.*?print("postBaidu:==========================

zhangpan 2020-09-10

ajax实现excel报表导出

项目中遇到一个场景，要导出一个excel报表。由于需要token验证，所以不能用a标签；由于页面复杂，所以不能使用表单提交。初步考虑前端使用ajax，后端返回流，定义指定的header。alert('导出失败，导出的内容为空！excel能正常导出，但下载下

chongxiaocheng 2020-08-16

ctf | php

一道难得可以看的懂的ctf题。id=1）把其中的id=1给取出来等等...下面是他的内部函数：。当我们判断s = /或者s+1 =/的时候就会仍未这是相对的url然后就取，而后认为 url 的部件从 url+2 开始。取不到应该去的值，所以导致过滤没啥用。

xcguoyu 2020-08-15

swagger报错No operations defined in spec!解决

swagger报错No operations defined in spec!一般有2个原因：。其中第2个path错误，path要是全匹配url，url是完整的，包含方法的url，本人因为path只写controller上的url，没写方法上的url，找了

Qizonghui 2020-08-02

mysql URL

characterEncoding=utf8&useUnicode=true. characterEncoding=utf8&useSSL=false&serverTimezone=UTC

ldcwang 2020-07-26

【Nginx】还不会使用Nginx解决跨域问题？肝这一篇就够了！！

作者个人研发的在高并发场景下，提供的简单、稳定、可扩展的延迟消息队列框架，具有精准的定时任务和延迟队列处理功能。自开源半年多以来，已成功为十几家中小型企业提供了精准定时调度方案，经受住了生产环境的考验。而且大部分后端服务并不会只部署一套服务，而是会采用Ng

mqfcu 2020-07-21

接口测试-url参数中出现+、空格、=、%、&、#等字符的解决办法

解决办法：在URL对应位置换成以下字符即可，对应关系如下：+ URL 中+号表示空格%2B空格URL中的空格可以用+号或者编码%20/分隔目录和子目录%2F?分隔实际的URL和参数%3F% 指定特殊字符%25# 表示书签%23& URL 中指定的参

jeason 2020-07-20

用urllib库几行代码实现最简单爬虫

使用urllib.request()请求一个网页内容，并且把内容打印出来。# 存取到内存当中是bytes流，使用read方法把rsp的内容读取出来，赋值给变量html。# 使用decode解码成我们能够看懂的格式。D:\ProgramData\Anacon

sunzhihaofuture 2020-07-19

一个菜鸟前端的自我提升：有关http请求中的get和post请求

在http/1.0中共定义了三种请求方式：get、post、head。在http/1.1中新增了五种请求方式：options、put、delete、trace、connect。在这八种方法中get、post这两种是最常见的请求方法。而post方法数据不会显

knightwatch 2020-07-19

从零开始手写 mybatis （三）jdbc pool 从零实现数据库连接池

第一节从零开始手写 mybatis（一）MVP 版本中我们实现了一个最基本的可以运行的 mybatis。本节我们一起来看一下如何实现一个数据库连接池。为什么需要连接池？数据库连接的创建是非常耗时的一个操作，在高并发的场景，如果每次对于数据库的访问都重新

点滴技术生活 2020-07-19

使用selenium 和图片验证码识别对12306的模拟登录+12306查询车次

记得索引位置，有部分车次的索引位置完全相反！！！我晕，暂时没想到怎么搞。此处headers 和cookies 自己获取，记得加！‘_jc_save_toDate‘: ‘2020-07-06‘,‘_jc_save_wfdc_flag‘: ‘dc‘,‘_jc_

Reiki 2020-07-06

scrapy 管理部署的爬虫项目的python类

还有部分api接口没有添加进来,可以参照官方的文档添加.

hilary0 2020-07-05

Python github

def get_search_github(keyword, language, pageIndex):. "q" : keyword,"type": "Repositories","l

zluxingzhe 2020-07-04

安科网

python中urlparse模块介绍与使用示例

manmanoy

manmanoy

相关推荐

python 下载文件的多种方法汇总

详解golang开发中http请求redirect的问题

nginx配置proxy_pass中url末尾带/与不带/的区别详解

Node 使用express-http-proxy 做api网关的实现

Webhooks与API的区别在哪里？

Nginx Rewrite使用场景及配置方法解析

python 如何调用远程接口

python 自动提交到百度，利用百度API自动提交

ajax实现excel报表导出

ctf | php

swagger报错No operations defined in spec!解决

mysql URL

【Nginx】还不会使用Nginx解决跨域问题？肝这一篇就够了！！

接口测试-url参数中出现+、空格、=、%、&、#等字符的解决办法

用urllib库几行代码实现最简单爬虫

一个菜鸟前端的自我提升：有关http请求中的get和post请求

从零开始手写 mybatis （三）jdbc pool 从零实现数据库连接池

使用selenium 和图片验证码识别对12306的模拟登录+12306查询车次

scrapy 管理部署的爬虫项目的python类

Python github

manmanoy