程序员玩转Python爬虫必备知识之正则表达式

mikiah

2019-12-20

关注关注

正则表达式

动机

1. 文本处理已经成为计算机的常见工作之一

2. 对文本内容的搜索，定位，提取是逻辑比较复杂的工作

3. 为了快速解决上述问题，产生了正则表达式技术

定义：即文本的高级匹配模式，提供搜索，替代等功能。其本质是一系列由特殊符号组成的字串，这个字串即正则表达式。

匹配原理：由普通字符和特殊符号组成字符串，通过描述字符的重复和位置等行为，达到匹配某一类字符串的目的

目标：

1. 熟练掌握正则表达式符号

2. 实现基本的文本搜索，定位，提取，理解正则用法

3. 能够适用re模块操作正则表达式

特点：

* 方便文本处理

* 支持语言众多

* 使用灵活多样

python ---》 re模块

re.findall(pattern, string)

功能: 使用正则表达式匹配目标字符串内容

参数： pattern 正则表达式

string 目标字符串

返回值：列表，列表中为匹配到的内容

元字符的使用

1. 普通字符

元字符： a b c

匹配规则：每个字符匹配对应的字符

In [15]: re.findall("hello","hello world")

Out[15]: ['hello']

In [19]: re.findall("你好","你好北京")

Out[19]: ['你好']

2. 或

元字符： |

匹配规则：匹配 | 两边任意一个正则表达式

In [21]: re.findall("ab|cd","abcdefghialkjasbab")

Out[21]: ['ab', 'cd', 'ab']

3. 匹配单个字符

元字符： .

匹配规则：匹配除换行外的任意字符

f.o --> foo fao f@o f o

In [24]: re.findall("f.o","foo is not fao")

Out[24]: ['foo', 'fao']

4. 匹配开始位置

元字符： ^

匹配规则：匹配目标字符串的开头位置

In [30]: re.findall("^Tom","Tom is a boy")

Out[30]: ['Tom']

5. 匹配结束位置

元字符： $

匹配规则：匹配字符串的结束位置

In [32]: re.findall("Tom$","hi Tom")

Out[32]: ['Tom']

6. 匹配重复

元字符： *

匹配规则：匹配前面的字符出现0次或多次

fo* --> fooooooooo f fo

In [33]: re.findall("fo*","fadsfafoooafo")

Out[33]: ['f', 'f', 'fooo', 'fo']

7. 匹配重复

元字符： +

匹配规则：匹配前面的字符出现1次或多次

fo+ --> fo fooooo

In [36]: re.findall("fo+","fadsfafoooafo")

Out[36]: ['fooo', 'fo']

8. 匹配重复

元字符：？

匹配规则：匹配前面的字符出现0次或1次

fo? --> f fo

In [42]: re.findall("fo?","fasdffoafooooo")

Out[42]: ['f', 'f', 'fo', 'fo']

9. 匹配重复

元字符： {n}

匹配规则：匹配指定的重复次数

fo{3} --> fooo

In [43]: re.findall("fo{2}","fasdffoafooooo")

Out[43]: ['foo']

10. 匹配重复

元字符： {m,n}

匹配规则：匹配前面的正则表达式 m--n次

fo{2,4} --> foo fooo foooo

In [46]: re.findall("fo{2,4}","fasdfofoooafooooo")

Out[46]: ['fooo', 'foooo']

11. 匹配字符集合

元字符： [字符集]

匹配规则：匹配任意一个字符集中的字符

[abc123] a b c 1 2 3

[a-z]

[A-Z]

[0-9]

[_123a-z]

In [51]: re.findall("^[A-Z][a-z]*","Boy")

Out[51]: ['Boy']

12. 匹配字符集

元字符： [^...]

匹配规则：字符集取非，除列出的字符之外任意一个字符

[^abc] --> 除a b c之外任意字符

In [54]: re.findall("[^ ]+","a little boy")

Out[54]: ['a', 'little', 'boy']

13. 匹配任意（非）数字字符

元字符： \d \D

匹配规则： \d 匹配任意数字字符 [0-9]

\D 匹配任意非数字字符 [^0-9]

In [57]: re.findall("1\d{10}","18888886666")

Out[57]: ['18888886666']

14. 匹配任意（非）普通字符

元字符： \w \W

匹配规则: \w 普通字符 [_0-9a-zA-Z] 也能匹配普通汉字

\W 非普通字符

re.findall("\w+","hello#nihao%asdf@adsgdfg!df&")

Out[60]: ['hello', 'nihao', 'asdf', 'adsgdfg', 'df']

re.findall("\W+","hello#nihao%asdf@adsgdfg!df&")

Out[63]: ['#', '%', '@', '!', '&']

15. 匹配任意（非）空字符

元字符： \s 匹配任意空字符 [ \r\t\n\v\f]

\S 匹配任意非空字符

In [65]: re.findall("\w+\s+\w+","hello world")

Out[65]: ['hello world']

In [66]: re.findall("\S+","hello this is tom")

Out[66]: ['hello', 'this', 'is', 'tom']

16. 匹配字符串位置

元字符： \A \Z

匹配规则： \A 匹配字符串开头位置 ^

\Z 匹配字符串结尾位置 $

绝对匹配：正则表达式要完全匹配目标字符串内容

在正则表达式开始和结束位置加上^ $ (或者\A \Z)。这样正则表达式必须匹配整个目标字符串才会有结果

In [75]: re.findall("\A\d+\Z","123445")

Out[75]: ['123445']

17. 匹配（非）单词边界

元字符： \b \B

匹配规则： \b 匹配单词边界位置

普通字符和非普通字符交界认为是单词边界

\B 匹配非单词边界位置

In [81]: re.findall(r"num\b","num#asdf#")

Out[81]: ['num']

In [82]: re.findall(r"num\b","numasdf#")

Out[82]: []

程序员玩转Python爬虫必备知识之正则表达式

元字符总结

匹配单个字符： a . \d \D \w \W \s \S

[...] [^...]

匹配重复： * + ? {n} {m,n}

匹配位置： ^ $ \A \Z \b \B

其他： | () \

正则表达式转义

正则中的特殊符号：

. * + ? ^ $ [] {} () | \

正则表达式如果匹配特殊字符需要加 \ 表达转义

正则目标字符串

e.g. \$\d+ ----> $10

pattern string

python "\\$\\d+" "$10"

raw r"\$\d+" "$10"

raw字串：原始字符串对内容不解释转义，就表达内容原本意义

贪婪与非贪婪

贪婪模式：正则表达式的重复匹配总是尽可能多的向后匹配更多内容

* + ？ {m,n}

非贪婪（懒惰模式）：尽可能少的匹配内容

贪婪 ---》非贪婪 *？ +？ ?? {m,n}?

In [106]: re.findall(r"ab+?","abbbbbbbb")

Out[106]: ['ab']

In [107]: re.findall(r"ab??","abbbbbbbb")

Out[107]: ['a']

正则表达式的子组

可以使用()为正则表达式建立子组，子组可以看做是正则表达式内部操作的一个整体

* 子组是在正则表达式整体匹配到内容的前提下才会发挥作用，它不影响正则表达式整体去匹配目标内容这一原则

子组所用

1. 作为内部整体可以改变某些元字符的行为

re.search(r"(ab)+\d+","ababab1234").group()

'ababab1234'

re.search(r"\w+@\w+\.(com|cn)","abc@123.com").group()

'abc@123.com'

2. 子组在某些操作中可以单独提取出匹配内容

re.search(r"(https|http|ftp)://\S+","https://www.baidu.com").group(1)

Out[121]: 'https'

子组使用注意事项

* 一个正则表达式中可以有多个子组

* 子组一般由外到内，由左到右称之为第一，第二第三。。。。子组

* 子组不能重叠，嵌套也不宜很多

捕获组和非捕获组

格式：（?P<name>pattern）

e.g.

re.search(r"(?P<dog>ab)cdef",'abcdefghti').group('dog')

Out[130]: 'ab'

作用：可以通过组名更方便获取某组内容

正则表达式设计原则

1. 正确性，能正确匹配到目标内容

2. 排他性，除了要匹配的内容，尽可能不会匹配与到其他内容

3. 全面性，需要对目标的各种情况进行考虑，做到不遗漏

程序员玩转Python爬虫必备知识之正则表达式

re模块

regex = compile(pattern,flags = 0)

功能：生成正则表达式对象

参数： pattern 正则表达式

flags 功能标志位，丰富正则表达式的匹配功能

返回值 : 返回正则表达式对象

re.findall(pattern,string,flags)

功能：从目标字符串查找正则匹配内容

参数： pattern 正则表达式

string 目标字符串

flags 标志位

返回值：返回匹配到的内容

如果正则有子组则只返回子组对应内容

regex.findall(string,pos,endpos)

功能：从目标字符串查找正则匹配内容

参数： string 目标字符串

pos 匹配目标的起始位置

endpos 匹配目标的终止位置

返回值：返回匹配到的内容

如果正则有子组则只返回子组对应内容

re.split(pattern,string,flags = 0)

功能：根据正则匹配内容切割字符串

参数： pattern string flags

返回值：返回列表，列表中为切割的内容

re.sub(pattern,replaceStr,string,max,flags)

功能：替换正则匹配到的目标子串部分

参数： pattern

replaceStr ：要替换的内容

string

max 最多替换几处默认全部替换

flags

返回值：返回替换后的字符串

re.subn(pattern,replaceStr,string,max,flags)

功能：替换正则匹配到的目标子串部分

参数： pattern

replaceStr ：要替换的内容

string

max 最多替换几处默认全部替换

flags

返回值：返回一个元组，为实际替换了几处和替换后的字符串

re.finditer(pattern,string,flags)

功能：使用正则表达式匹配目标字符串

参数： pattern string flags

返回值：返回一个迭代对象，迭代到的内容是一个match对象

fullmatch(pattern,string,flags)

功能：完全匹配目标字符串

参数： pattern,string,flags

返回值：返回匹配到的match对象

如果没匹配成功返回None

match(pattern,string,flags)

功能：从开头位置匹配目标字符串

参数： pattern,string,flags

返回值：返回匹配到的match对象

如果没匹配成功返回None

search(pattern,string,flags)

功能：正则表达式匹配目标字符串，只匹配第一处

参数： pattern,string,flags

返回值：返回匹配到的match对象

如果没匹配成功返回None

compile对象属性：

flags ：标志位

pattern ：正则表达式

groups：有多少子组

groupindex ：捕获组形成组名和序列号的字典

组名为键，第几组为值

match对象属性

属性变量

pos 匹配目标字符串的开始位置

endpos 匹配目标字符串的结束位置

re 正则表达式

string 目标字符串

lastgroup 最后一组的组名

lastindex 最后一组是第几组

属性方法

span() 匹配内容的开始位置

start() 匹配内容的结束位置

end() 匹配内容的起止位置

group()

功能：获取match对象对应的内容

参数：默认为0 表示获取整个正则匹配的内容

如果为序列号或者子组名则为获取某个子组匹配的对应内容

返回值：返回得到的子串

groupdict() 获取捕获组名作为键，对应内容作为值的字典

groups() 获取每个子组匹配内容

flags 参数的使用

re.compile re.findall re.search re.match

re.finditer re.fullmatch re.sub re.subn re.split

作用：辅助正则表达式，丰富匹配结果

I == IGNORECASE 匹配时忽略字母的大小写

S == DOTALL 作用于元字符 . 使其可以匹配换行

M == MULTILINE 作用于^ $ 使其可以匹配每一行开头结尾位置

X == VERBOSE 可以给正则添加注释

使用多个标志位使用按位或连接

e.g.

flags = re.X | re.I

正则表达式 python 程序员字符

mikiah

0 关注 0 粉丝 0 动态

关注关注

shell模糊匹配与正则详解

正则可以实现一些简单的功能，并用在脚本中，如检测ip地址是否符合规范，检测文件名是否符合规范等等。正则表达式主要是用来描述一个句法规则的模式。其实说的通俗一点，就是利用字符和元字符的组合，对一些符合既定句法的模式进行模糊匹配。它的主要功能是文本查询和字符串

wangzhaotongalex 2020-10-20

Shell—正则表达式（grep命令、sed工具）

正则表达式对于系统管理员来说是非常重要的，熟练运用正则表达式可使工作变得更加简单、方便。简单来说，是一种匹配字符串的方法，通过一些特殊符号，实现快速查找、删除、替换某个特定字符串。正则表达式对于系统管理员来说是非常重要的，系统运行过程中会产生大量的信息，这

rechanel 2020-11-16

【教程】图文解读正则表达式的使用技巧

一个好的正则表达式看起来像魔法，但请记住：任何足够先进的技术都无法与魔法区分开来。所以，就让我们揭开正则表达式的神秘面纱！如果你理解正则表达式，它会突然变成一个超快速和强大的工具……让我们从基础开始。它们的用途是什么？正则表达式通常用于 grep 等工具中

cshanzhizi 2020-10-16

如何掌握正则表达式这一开发利器，看这篇就够了

正则表达式具有伟大技术发明的一切特点，它简单、优美、功能强大、妙用无穷。对于很多实际工作来讲，正则表达式简直是灵丹妙药，能够成百倍地提高开发效率和程序质量。表示数字、大小写字母和下划线。表示空白符，包括空格、水平制表符、垂直制表符、换行符、回车符、换页符。

luofuIT成长记录 2020-09-22

如何使用Grep命令查找多个字符串

大家好，我是良许!今天向大家介绍一个非常有用的技巧，那就是使用 grep 命令查找多个字符串。简单介绍一下，grep 命令可以理解为是一个功能强大的命令行工具，可以用它在一个或多个输入文件中搜索与正则表达式相匹配的文本，然后再将每个匹配的文本用标准输出的

taomengxing 2020-09-07

C# 正则表达式

.Net 框架提供了允许这种匹配的正则表达式引擎。模式由一个或多个字符、运算符和结构组成。正则表达式中的反斜杠字符（\）指示其后跟的字符是特殊字符，或应按原义解释该字符。与报警符 \u0007 匹配。" + ‘\u0007‘ 中的 "

MaggieRose 2020-08-19

正则表达式常用的字符类

=\") \"表示转义，即双引号"其中(?=)为正向预搜索，表示要匹配的字符串后面必须是".*?表示要匹配的部分比如：正式表达式：(?美国邮编的规则是5位数字，或者用连字号间隔的9位数字。之所以要给出这个例子是因为它

jyj00 2020-08-15

正则表达式

# Thompson将正则表达式引入到Unix中文本编辑器ed和grep命令中，由此正则表达式普# 及开来。# # 二.分类# # # BRE# 　　基本正则表达式，grep、sed、vi等软件支持。# # ERE# 　　扩展正则表达式，egrep、sed

MaggieRose 2020-07-04

正则表达式基础

[xyz]匹配字符x，y或z.如果中括号内包含元字符，则元字符降级为普通字符，即[+.?]匹配加号，点号或问号。通常 \ * + | { [ ( ) ] } ^ $ . # 和空白这些字符都需要转义，使用\进行标识转义

modaiairen 2020-06-28

小智最近在学习正则，学习过程中发现这 6 个方便的正则表达式

几乎所有流行的编程语言都支持正则表达式，因为正则实在是太强大了，它能让我们原本需要数十行代码才能完成的，正则大哥一行就能搞定了。在本文中，我们将研究前端开发人员经常必须处理的6个文本处理和操作，并了解正则表达式是如何简化这个过程的。假设我们想要匹配文本中包

ziggurat 2020-06-28

【python----发轫之始】【正则表达式总结】

能够按照某种模式匹配一系列具有相似特征的字符串。：作用是代表前面的字符出现0次或1次，即前面的字符可有可无。如遇到. $ ^ 等特殊字符，我们就得用“\”进行转义。返回指定组别中的元素。以字典的形式返回组名和对应的信息。将pattern中的repl 替换成

JnX 2020-06-27

第一章—正则表达式

是一些由字符和特殊符号组成的字符串，它们描述了模式的重复或者表述多个字符，于是正则表达式能按照某种模式匹配一系列有相似特征的字符串。搜索和匹配的比较匹配：用于严格讨论与字符串中模式相关的正则表达式时，指的是“模式匹配”。而用于python术语中，代表完成模

jyj00 2020-06-26

python——RE模块的基础应用及正则表达式的使用

re模块是python独有的匹配字符串的模块，该模块中提供的很多功能是基于正则表达式实现的，而正则表达式是对字符串进行模糊匹配，提取自己需要的字符串部分，他对所有的语言都通用。反斜杠不会被任何特殊方式处理。元字符就是指那些在正则表达式中具有特殊意义的专用字

山水沐光 2020-06-25

在 JavaScript 中替换所有指定字符 3 种方法

在 JS 没有提供一种简便的方法来替换所有指定字符。在 Java 中有一个 replaceAll() ，replaceAll)方法使用给定的参数 replacement 替换字符串所有匹配给定的正则表达式的子字符串。在该提案还没出来之前，我们来看看在 JS

shqhope 2020-06-23

10. 正则表达式匹配

给你一个字符串?和一个字符规律?p，请你来实现一个支持 ‘.‘?和?‘*‘?的正则表达式匹配。所谓匹配，是要涵盖?可能为空，且只包含从?因为 ‘‘ 代表可以匹配零个或多个前面的那一个元素, 在这里前面的元素就是 ‘a‘。因此，字符串 "aa&qu

eroshn 2020-06-21

leetcode之正则表达式匹配Golang

正则表达式这道题对我来说是真的难，花了两天的时间才做出来。做这道题首先需要注意的是点号`.`可以匹配任何字符，字符加星号`*`表示零个或者多个该字符，例如a*表示零个或者多个a，所以对于正则表达式中，后面不跟*的字符，在字符串s中必须找到对应的字符，对于正

码墨 2020-06-16

正则表达式中两个反斜杠的匹配规则详解

于是乎我就在思考，为什么会匹配不到，假设\t被转义成一个\t，那么也应该匹配到\tsanle,而不是none。而需要匹配的字符串\\\t -->两个反斜杠会变成一个反斜杠。然后就变成\\t了，然后就变成直接的一个tab键，他们就匹配上了。这就是我所理

wyq 2020-11-11

正则表达式解决input框固定输入值得格式(金额,特殊字符)

栗子：只能输入金额，只能输入小数且最多保留2位不能输入某。//这里我使用的是input，每输入一次就会检查，也可以使用change改变时检查或blur失去焦点时检查。message: "请输入小于1的数!&*――――\-+={}|《》？m

TLROJE 2020-10-26

浅析golang 正则表达式

Go是 Google 的 Robert Griesemer，Rob Pike 及 Ken Thompson 开发的一种静态强类型、编译型语言。Go 语言语法与 C 相近，但功能上有：内存安全，GC，结构形态及 CSP-style 并发计算。罗伯特格瑞史莫，

风雨断肠人 2020-10-13

Oracle数据库正则表达式使用场景代码实例

无论是在前端还是后台正则表达式都是一个至关重要的知识点，例如判断一个手机号码输入是否正确，如果使用Java、C或者其他语言进行字符串进行判断，也许写几十行代码都不一定能解决，而且漏洞百出，而使用正则表达式，一行代码则可轻易解决，下面是举例说明正则表达式的用

duanqingfeng 2020-09-29

安科网

程序员玩转Python爬虫必备知识之正则表达式

mikiah

正则表达式

元字符的使用

元字符总结

正则表达式转义

贪婪与非贪婪

正则表达式的子组

捕获组和非捕获组

正则表达式设计原则

re模块

mikiah

相关推荐

shell模糊匹配与正则详解

Shell—正则表达式（grep命令、sed工具）

【教程】图文解读正则表达式的使用技巧

如何掌握正则表达式这一开发利器，看这篇就够了

如何使用Grep命令查找多个字符串

C# 正则表达式

正则表达式常用的字符类

正则表达式

正则表达式基础

小智最近在学习正则，学习过程中发现这 6 个方便的正则表达式

【python----发轫之始】【正则表达式总结】

第一章—正则表达式

python——RE模块的基础应用及正则表达式的使用

在 JavaScript 中替换所有指定字符 3 种方法

10. 正则表达式匹配

leetcode之正则表达式匹配Golang

正则表达式中两个反斜杠的匹配规则详解

正则表达式解决input框固定输入值得格式(金额,特殊字符)

浅析golang 正则表达式

Oracle数据库正则表达式使用场景代码实例

mikiah

程序员玩转Python爬虫必备知识之正则表达式

正则表达式

元字符的使用

元字符总结

正则表达式转义

贪婪与非贪婪

正则表达式的子组

捕获组 和 非捕获组

正则表达式设计原则

re模块

相关推荐

捕获组和非捕获组