python——RE模块的基础应用及正则表达式的使用

山水沐光

2020-06-25

关注关注

python——RE模块的基础应用及正则表达式的使用

Python re模块

re模块是python独有的匹配字符串的模块，该模块中提供的很多功能是基于正则表达式实现的，而正则表达式是对字符串进行模糊匹配，提取自己需要的字符串部分，他对所有的语言都通用。

re模块是python独有的
正则表达式所有编程语言都可以使用
re模块、正则表达式是对字符串进行操作

注意点：正则表达式会对特殊字符进行转义，如果要保持原模样，只需加个r前缀。例如：r‘\thello-\rworld‘

禁止转义！反斜杠不会被任何特殊方式处理。
Python编译器用‘\’（反斜杠）来表示字符串常量中的转义字符。
如果反斜杠后面跟着一串编译器能够识别的特殊字符，那么整个转义序列将被替换成对应的特殊字符（例如，‘\n’将被编译器替换成换行符）
本质上来讲，使用r，你在告诉编译器完全不要去干涉你的字符串
常见转义符

元字符

元字符就是指那些在正则表达式中具有特殊意义的专用字符，可以用来规定其前导字符（即位于元字符前面的字符）在目标对象中的出现模式。

字符	说明
.	匹配除换行符以外的所有字符
[...]	匹配字符集
\w	匹配字母、数字及下划线`_`，等价于`[A-Za-z0-9_]`
\W	匹配所有与\w不匹配的字符（取反）
\s	匹配单个空格符、包括tab键和换行符
\S	匹配除单个空格之外的字符
\d	匹配从0到9的数字，等价于`[0-9]`
\D	匹配非数字
^	匹配输入字符串开始的位置
$	匹配输入字符串结尾的位置

限定符(重复)

限定符用来限定一个目标子表达式要重复出现多少次才匹配成功

限定符	说明
*	匹配前面的字符0次或多次
+	匹配前面的字符1次或多次
？	匹配前面的字符0次或1次
{n}	匹配前面的字符n次
{n,}	匹配前面的字符至少n次
{n,m}	匹配前面的字符至少n次，最多m次

字符串转义：\

www.baidu.com

www\.baodu\.com

贪婪与非贪婪

贪婪匹配:正则表达式一般趋向于最大长度匹配，也就是所谓的贪婪匹配。

非贪婪匹配：就是匹配到结果就好，最少的匹配字符。

默认是贪婪模式；在量词后面直接加上一个问号？就是非贪婪模式。

字符	说明
*	允许前一个字符可以出现0次或者无数次
+	前一个字符至少出现1次
?	前一个字符只能出现一次或者不出现
{n}	允许前一个字符只能出现n次
{n,m}	允许前一个字符出现n到m次
{n, }	允许前一个字符至少出现n次

转义符

转义字符	描述
`\(在行尾时)`	续行符
`\\`	反斜杠符号
`\‘`	单引号
`\"`	双引号
`\a`	响铃
`\b`	退格（Backspace）
`\e`	转义
`\000`	空
`\n`	换行
`\v`	纵向制表符
`\t`	横向制表符
`\r`	回车
`\f`	换页
`\oyy`	八进制数，例如：`\o12`代表换行
`\xyy`	十进制数，例如：`\x0a`代表换行
`\other`	其他的字符以普通格式输出

标志位

标志	说明
re.S	匹配包括换行在内的所有字符
re.I	使匹配对大小写不敏感
re.L	做本地化识别（locale-aware)匹配，法语等
re.M	多行匹配，影响^和$
re.X	该标志通过给予更灵活的格式以便将正则表达式写得更易于理解
re.U	根据Unicode字符集解析字符，这个标志影响\w,\W,\b,\B

re.I 使匹配对大小写不敏感，如下：

# re.I 的学习，忽略大小写
S1 = ‘CoN‘   #定义字符串i1
S2 = ‘www.xiao.con‘    #定义字符串i2
#print(re.search(‘CoN‘,‘www.xiao.con‘).group())  #区分大小写的子组输出,报有错
print(re.search(S1,S2,re.I).group())  #不区分大小写的子组输出
# con

re.M 使用^ 和 $ 符号，实现多行多行匹配。如将所有行的末尾字符串输出得：

# re.M 的学习，将所有行的尾字母或者首部输出
S3 = ‘‘‘I am girl
        you are boy
        we are friends
        ‘‘‘                   #定义初始字符串
print(re.findall(r"\w+$",S3,re.M))   #输出S3的每行最后一个字符串
# [‘girl‘, ‘boy‘, ‘friends‘]

re.S匹配包括换行在内的所有字符。如下：

s1 = ‘‘‘jduedhhelloworld：    
        11630
        passgrthgdg
        ‘‘‘                     #初始字符串，有换行所以用三引号
b = re.findall(‘hello(.*?)pass‘,s1)   #findal返回字符串中某个正则表达式模式全部的非重复出现的情况，不包含换行,返回列表
c = re.findall(‘hello(.*?)pass‘,s1,re.S)  #包含换行
print(‘b is‘,b)  #输出B匹配的结果 b is []
print(‘c is‘,c)   #输出C，包行匹配输出的结果 c is [‘world：    \n        11630\n        ‘]

正则表达式常用函数

1、`re.findall()`函数

语法：re.findall(pattern, string, flags=0) ——> list(列表)

pattern 匹配的正则表达式
string 要匹配的字符串。
flags 标志位，用于控制正则表达式的匹配方式

列出字符串中模式的所有匹配项，并作为一个列表返回。如果无匹配，则返回空列表！

import re
print(re.findall(r"ab","abcaaaab"))
[‘ab‘, ‘ab‘]               #匹配的值作为一个列表范围

2、`re.compile()`函数

语法：re.compile(pattern, flags=0) ——> pattern object

根据包含正则表达式的字符串创建模式对象，可以实现更有效率地匹配！用了re.compile以后，正则对象会得到保留，这样在需要多次运用这个正则对象的时候，效率会有较大的提升

import re
s=r"^010-\d{8}$"
print(re.findall(s,"010-12345678"))
# [‘010-12345678‘]
p_tel=re.compile(s)     #对s这个正则表达式创建模式对象p_tel
print(p_tel)
# <_sre.SRE_Pattern object at 0x7f3ab3776d78>
print(p_tel.findall("010-12345678"))  
#经过compile转换的正则表达式对象也能用于普通的re函数，跟上面的re.findall(s,"010-12345678")一样的效果
# [‘010-12345678‘]

3、`re.match()`函数

语法：re.match(pattern, string, flags=0) ——> match object or None

在字符串的开始位置匹配正则！如果无匹配，则返回 None 。

import re
s=r"abc"
com=re.compile(s)
com.match("abcdef")                          #abc在开始的位置，可以匹配
# <_sre.SRE_Match object at 0x7f3ab3480cc8>
print(com.match("hhhabc"))                    #abc不在开始的位置，不可以匹配
# None

# 使用group()-返回匹配的数据
com.match("abcddddd").group()   			 #使用group()返回匹配的对象
# ‘abc‘

4、`re.search()`函数

语法：re.search(pattern, string, flags=0) ——> match object or None

re.search函数会在字符串内查找模式匹配,只要找到第一个匹配然后返回，如果字符串没有匹配，则返回None

re.match与re.search的区别：re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配。

5、`re.sub()`函数

语法:re.sub(pattern, repl, string, count=0, flags=0) ——> string

将字符串中所有 pattern 的匹配项用 repl 替换！

import re
re.sub(r"abc","123","abcdefabc")
# ‘123def123‘

6、`re.split()`函数

语法：re.split(pattern, string, maxsplit=0, flags=0) ——> list

根据模式的匹配项来分割字符串

import re
re.split(r"\d+","aa11bb22cc")  #以正则表达式\d+为分割符
[‘aa‘, ‘bb‘, ‘cc‘]
re.split(r"\d","aa11bb22cc")   #以正则表达式\d+为分割符
[‘aa‘, ‘‘, ‘bb‘, ‘‘, ‘cc‘]

正则表达式转义 python 字符 td处理 td

山水沐光

0 关注 0 粉丝 0 动态

关注关注

shell模糊匹配与正则详解

正则可以实现一些简单的功能，并用在脚本中，如检测ip地址是否符合规范，检测文件名是否符合规范等等。正则表达式主要是用来描述一个句法规则的模式。其实说的通俗一点，就是利用字符和元字符的组合，对一些符合既定句法的模式进行模糊匹配。它的主要功能是文本查询和字符串

wangzhaotongalex 2020-10-20

C# 正则表达式

.Net 框架提供了允许这种匹配的正则表达式引擎。模式由一个或多个字符、运算符和结构组成。正则表达式中的反斜杠字符（\）指示其后跟的字符是特殊字符，或应按原义解释该字符。与报警符 \u0007 匹配。" + ‘\u0007‘ 中的 "

MaggieRose 2020-08-19

正则表达式基础

[xyz]匹配字符x，y或z.如果中括号内包含元字符，则元字符降级为普通字符，即[+.?]匹配加号，点号或问号。通常 \ * + | { [ ( ) ] } ^ $ . # 和空白这些字符都需要转义，使用\进行标识转义

modaiairen 2020-06-28

Shell—正则表达式（grep命令、sed工具）

正则表达式对于系统管理员来说是非常重要的，熟练运用正则表达式可使工作变得更加简单、方便。简单来说，是一种匹配字符串的方法，通过一些特殊符号，实现快速查找、删除、替换某个特定字符串。正则表达式对于系统管理员来说是非常重要的，系统运行过程中会产生大量的信息，这

rechanel 2020-11-16

【教程】图文解读正则表达式的使用技巧

一个好的正则表达式看起来像魔法，但请记住：任何足够先进的技术都无法与魔法区分开来。所以，就让我们揭开正则表达式的神秘面纱！如果你理解正则表达式，它会突然变成一个超快速和强大的工具……让我们从基础开始。它们的用途是什么？正则表达式通常用于 grep 等工具中

cshanzhizi 9评论 2020-10-16

如何掌握正则表达式这一开发利器，看这篇就够了

正则表达式具有伟大技术发明的一切特点，它简单、优美、功能强大、妙用无穷。对于很多实际工作来讲，正则表达式简直是灵丹妙药，能够成百倍地提高开发效率和程序质量。表示数字、大小写字母和下划线。表示空白符，包括空格、水平制表符、垂直制表符、换行符、回车符、换页符。

luofuIT成长记录 2020-09-22

如何使用Grep命令查找多个字符串

大家好，我是良许!今天向大家介绍一个非常有用的技巧，那就是使用 grep 命令查找多个字符串。简单介绍一下，grep 命令可以理解为是一个功能强大的命令行工具，可以用它在一个或多个输入文件中搜索与正则表达式相匹配的文本，然后再将每个匹配的文本用标准输出的

taomengxing 2020-09-07

正则表达式常用的字符类

=\") \"表示转义，即双引号"其中(?=)为正向预搜索，表示要匹配的字符串后面必须是".*?表示要匹配的部分比如：正式表达式：(?美国邮编的规则是5位数字，或者用连字号间隔的9位数字。之所以要给出这个例子是因为它

jyj00 2020-08-15

正则表达式

# Thompson将正则表达式引入到Unix中文本编辑器ed和grep命令中，由此正则表达式普# 及开来。# # 二.分类# # # BRE# 　　基本正则表达式，grep、sed、vi等软件支持。# # ERE# 　　扩展正则表达式，egrep、sed

MaggieRose 2020-07-04

小智最近在学习正则，学习过程中发现这 6 个方便的正则表达式

几乎所有流行的编程语言都支持正则表达式，因为正则实在是太强大了，它能让我们原本需要数十行代码才能完成的，正则大哥一行就能搞定了。在本文中，我们将研究前端开发人员经常必须处理的6个文本处理和操作，并了解正则表达式是如何简化这个过程的。假设我们想要匹配文本中包

ziggurat 2020-06-28

【python----发轫之始】【正则表达式总结】

能够按照某种模式匹配一系列具有相似特征的字符串。：作用是代表前面的字符出现0次或1次，即前面的字符可有可无。如遇到. $ ^ 等特殊字符，我们就得用“\”进行转义。返回指定组别中的元素。以字典的形式返回组名和对应的信息。将pattern中的repl 替换成

JnX 2020-06-27

第一章—正则表达式

是一些由字符和特殊符号组成的字符串，它们描述了模式的重复或者表述多个字符，于是正则表达式能按照某种模式匹配一系列有相似特征的字符串。搜索和匹配的比较匹配：用于严格讨论与字符串中模式相关的正则表达式时，指的是“模式匹配”。而用于python术语中，代表完成模

jyj00 2020-06-26

在 JavaScript 中替换所有指定字符 3 种方法

在 JS 没有提供一种简便的方法来替换所有指定字符。在 Java 中有一个 replaceAll() ，replaceAll)方法使用给定的参数 replacement 替换字符串所有匹配给定的正则表达式的子字符串。在该提案还没出来之前，我们来看看在 JS

shqhope 2020-06-23

10. 正则表达式匹配

给你一个字符串?和一个字符规律?p，请你来实现一个支持 ‘.‘?和?‘*‘?的正则表达式匹配。所谓匹配，是要涵盖?可能为空，且只包含从?因为 ‘‘ 代表可以匹配零个或多个前面的那一个元素, 在这里前面的元素就是 ‘a‘。因此，字符串 "aa&qu

eroshn 2020-06-21

leetcode之正则表达式匹配Golang

正则表达式这道题对我来说是真的难，花了两天的时间才做出来。做这道题首先需要注意的是点号`.`可以匹配任何字符，字符加星号`*`表示零个或者多个该字符，例如a*表示零个或者多个a，所以对于正则表达式中，后面不跟*的字符，在字符串s中必须找到对应的字符，对于正

码墨 2020-06-16

SHELL正则表达式

完成日常工作中我们需要得特定字符串匹配，或者从输出内容中匹配出符合我们需要得内容。1丶匹配标点符号[ ~]# grep ‘[[:punct:]]‘ /etc/fstab2丶匹配任意字母或者数字[ ~]# echo "I m Love ZhongG

山水沐光 2020-08-03

正则表达式中两个反斜杠的匹配规则详解

于是乎我就在思考，为什么会匹配不到，假设\t被转义成一个\t，那么也应该匹配到\tsanle,而不是none。而需要匹配的字符串\\\t -->两个反斜杠会变成一个反斜杠。然后就变成\\t了，然后就变成直接的一个tab键，他们就匹配上了。这就是我所理

wyq 2020-11-11

正则表达式解决input框固定输入值得格式(金额,特殊字符)

栗子：只能输入金额，只能输入小数且最多保留2位不能输入某。//这里我使用的是input，每输入一次就会检查，也可以使用change改变时检查或blur失去焦点时检查。message: "请输入小于1的数!&*――――\-+={}|《》？m

TLROJE 2020-10-26

浅析golang 正则表达式

Go是 Google 的 Robert Griesemer，Rob Pike 及 Ken Thompson 开发的一种静态强类型、编译型语言。Go 语言语法与 C 相近，但功能上有：内存安全，GC，结构形态及 CSP-style 并发计算。罗伯特格瑞史莫，

风雨断肠人 2020-10-13

Oracle数据库正则表达式使用场景代码实例

无论是在前端还是后台正则表达式都是一个至关重要的知识点，例如判断一个手机号码输入是否正确，如果使用Java、C或者其他语言进行字符串进行判断，也许写几十行代码都不一定能解决，而且漏洞百出，而使用正则表达式，一行代码则可轻易解决，下面是举例说明正则表达式的用

duanqingfeng 2020-09-29

python——RE模块的基础应用及正则表达式的使用

python——RE模块的基础应用及正则表达式的使用

Python re模块

元字符

限定符(重复)

字符串转义：\

贪婪与非贪婪

转义符

标志位

正则表达式常用函数

1、re.findall()函数

2、re.compile()函数

3、re.match()函数

4、re.search()函数

5、re.sub()函数

6、re.split()函数

相关推荐

1、`re.findall()`函数

2、`re.compile()`函数

3、`re.match()`函数

4、`re.search()`函数

5、`re.sub()`函数

6、`re.split()`函数