学习总结-2020-01-04

doubinning

2020-01-05

关注关注

前言

该文章主要是学习Python3爬虫，以及os,re，type(),super()的描述

修改时间：2020-01-04

天象独行

0X01；Python3爬虫总结

首先，我们先了解一下什么是爬虫，在我看来“爬虫”的本质就是使用代码来替代人为网页浏览数据的一种行为。如果这么一来那么就比较简单了。我们先看看人操作WEB浏览器是如何上网浏览数据的。

下面来看看WEB是如何与数据沟通的：

　　1；WEB浏览器通过地址url发送数据包到请求所需要的数据。

　　2；服务器经过验证（通过Cookie等方式）通过，返回WEB浏览器所需要的数据。

　　3；WEB浏览器经过特定的格式来分析解包，展现信息。

根据上面的分析，我们了解，希望利用代码来替代以上分析的行为。

　　1；WEB浏览器发送数据包到请求所需要的数据。

　　1.1；在Python3当中使用urllib模块来执行爬虫功能，其中request模块可以模拟该行为来发送web数据包。urllib.request.urlopen()可以直接发送数据包，当然，如果需要完全的模拟WEB发送数据包，也可以定制发送数据包。其中urllib.request.Request()来定制WEB数据包，通过urllib.request.urlopen()来发送出去。

　　1.2；定制数据包完成了那我们要往哪里发送这个数据包呢？WEB浏览器是通过URL来找到对应的服务器的。通过代码当然也是如此，这里我们可以使用模块urllib.parse模块来构造我们需要的URL。

　　3；WEB浏览器经过特定的格式来分析解包，展现信息。

　　对于返回来的数据我们并不是全部都需要，所以，我们需要筛选数据。常见的筛选数据的方法可以是通过BS库，正则表达式，xpath，jsonpath，selenium。来筛选数据。

0X02；Python3 os库

　　1；os.access(path,mode) 方法作用是尝试访问uid/gid路径。

　　2；os.chdir(path) 方法用于切换工作路径。

　　3；os.chmod(path,mode) 方法用于更改文件或目录的权限。

　　4；os.chown(path,uid,gid) 方法用户更改文件所有者。

　　5；os.makedirs(path,mode) 递归常见目录。

　　6；os.path.exists(path) 确定路径是否存在。

0X03；Python3 re库

　　1；re.match(pattern,string,flags=0) 从字符串起始位置匹配。

　　2；re.search(pattern,string,flags=0) 扫描整个字符串并且返回一个匹配对象。

　　3；re.sub,re.subn 替换字符串

　　4；re.findall 匹配全部关键字

　　5；re.compile 编译正则表达式

0X04；Python3 对象

　　1；定义类，关键字Class

　　2；实例化对象

　　3；继承

　　4；方法重写

0X05；Python3 type()

　　1；type() 函数如果你只有第一个参数则返回对象的类型

0X06；Python3 super()

　　1；super()调用父类方法

python3

安科网

学习总结-2020-01-04

doubinning

doubinning

相关推荐

新方向、新功能：Python3.9 完整版面世了

Linux系统安装Python3环境

Python3.9正式发布，16岁高中生自制「新特性必知图」

关于Python3.9，你不可不知的4个新特性

Linux下Python3.6的安装及避坑指南

用个小技巧，趁你不备，rm -rf你的电脑

python3 在服务器上打印资产信息

Mac上安装Python3教程

Python3.8安装Pygame教程步骤详解

Python print() 函数

jupyter notebook 同时存在python3.5 和python3.6

什么是单元测试

Python3.8环境安装PyHook3

Python3入门系列之-----内置的文件操作模块OS

python 多线程 QTimer实现多线程

在Window和Mac 下安装Python3 和Jupyter notebook

Python3种格式化字符串方法

第九天python3 闭包

linux集群部署深度学习平台Pytorch

python3与fastdfs分布式文件系统交互

doubinning