Linux学习记录--正则表达式与其应用

leap

2014-03-06

关注关注

正则表达式与其应用

数据处理工具：awk ,sed

正则表达式基本上是一种“表示法”，只要工具程序支持这种表示法，那么该工具程序就可以用来作为正则表达式的字符串处理只用。例如vi,grep,awk,sed等工具

正则表达式特殊符号

语系对应正在表达式也会存在影响。比如

LANG=C时：0 1 2 3 4 … A B C D ..Z a b c d ..z

LANG=ZH_CN时：0 1 2 3 4 …a A b B c C d D …….

因此[a-z]当C语系时代表的意义是获取小写字母。在ZH_CN语系时代表的意义就是获取字母(大写与小写)

为了避免数字和字母的选取错误，正则表达式采用特殊符号来代表

[:alnum:]：代表英文大小写字符及数字。A-Z a-z 0-9

[:alpha:]：代表英文大小写字符 A-Z a-z

[:blank:]：代表空格与TAB键

[:cntrl:]：代表键盘上的控制按键 CR,LF,TAB,DEL等

[:digit:]：代表数据 0-9

[:graph:]：代表除了空格与TAB键的其他所有按键

[:lower:]:代表小写字符

[:upper:]：代表大写字符

[:print:]：代表任何可以被打印出来了的字符

[:punct:]：代表标点符号字符

[:space:]：代表会产生的空白的字符如TAB空格 CR

[:xdigit:]：代表十六进制的数字类型 0-9 A-F a-f

举例

[root@localhost ~]# cat xargsfile |grep -n '[[:upper:]]'

2:FRA

4:AWEE

基础正则表达式字符

字符	意义与范例
^word	意义：查找以word为行首的数据举例：查找以#开始的那一行 gerp ‘^#’ file.txt
Word$	意义：查找以word为行尾的数据举例：查找以#为结尾的那一行 grep‘#$’ file.txt
.	意义：代表一定有一个任意字符举例查找字符串eae,ebe e e，ee之间一定有一个字符，空格也算字符 G rep ‘e.e’ file.txt
*	意义：重复0个到无穷个前一个字符举例：查找含有es ess esss等的字符串 grep ‘ess*’ file.txt
[]	意义：从字符集合中找出想要选取的字符举例：查找含有gl或gd的那一行 grep ‘g[ld]’ file.txt
[n1-n2]	意义：从字符集合里找出想要选取的字符范围举例：查找含有任意数字的哪一行 grep ‘[0-9]’ file.txt
[^]	意义：从字符集合中找处不要的字符或范围举例：查找不含大写字母的那一行 grep ‘[^A-Z]’ file.txt
\{n,m\}	意义：连续n个到m个的前一个字符，如\{n\}则是连续n个前一个字符，如\{n,\}则是连续n个以上前一个字符举例1：查找g与g之间包含2个到3个o的字符串如：goog gooog grep ‘\{2,\3}’ file.txt 举例2：查找g与g之间包含2个o的字符串如：goog grep ‘\{2\}’ file.txt 举例3：查找g与g之间包含3个及以上o的字符串如：gooog,gooood,goo….od grep ‘\{3,\}’ file.txt

扩展正则表达式

字符	意义与范例
+	意义：重复一个或一个以上的字符举例：查找god,good,good等字符串 egrep ‘go+d’ file.txt
?	意义：0个过1个前一个字符举例：查找gd god egrep ‘go?d’ file.txt
\|	意义：用或的方式找出数个字符串举例：找出my ,own egrep ‘my\|own’ file.txt
()	意义：找出“组“的字符串举例：找出good 或glad egrep ‘g(oo\|la)d’ file.txt
()+	意义：多个重复组的判别举例：找出Axy123123123C egrep ‘Axy(123)+C’ file.txt

说明：如grep需要使用扩展正则表达式，可使用grep –e或egrep

sed

sed本身是一个也是一个管道命令。可以分析输入数据流，还可以将数据进行替换，删除，选去等操作

sed与tr的区别

tr操作的单元是字符，它针对字符进行删除和替换

sed操作单元的是行，它针对行进行删除和替换

sed与vim的区别

sed是管道命令它修改只是输入数据流，并不会修改文件本身。虽然sed也可以直接修改文件，但是不需要打开文件，对于大文件来说很有帮助

vim是文本编辑器，它修改的是文件本身

语法：sed [-nefr] ‘动作’

选项与参数：

-n:silent模式，只将sed处理过的内容显示i出来

-e:设置多个sed动作

-f filename: 文件内记录sed脚本scipt

-r:sed支持的扩展正则表达式语法（默认是基础正则表达式）

-i:直接修改读取文件内容，而不是屏幕输出

动作：n1,n2function

n1,n2不一定存在

function:

a：新增，a后面接字符串，这些字符在当前的下一行显示

c：替换，c后面接字符串，这些字符替换n1-n2之间的行

d：删除，删除n1-n2之间的行

i：添加，i后面接字符串，这些字符在当前的上一行显示

p: 打印，打印n1~n2行之间的数据

s: 替换以关键字形式替换，并不是替换整行. sed ‘s/旧字符串/新字符串/g’’

举例：

[root@localhost ~]# cat sedfile |sed -n 'p' =>查询所有内容
line 1
line 2
line 3
line 4
line 5
line 6
line 7
line 8
line 9
line 10
[root@localhost ~]# cat sedfile |sed -n '1,4p'=>查询1~4内容
line 1
line 2
line 3
line 4
[root@localhost ~]# cat sedfile |sed '2a new line'|sed -n '1,5p'
=>在第2行下添加新的一行
line 1
line 2
new line
line 3
line 4
[root@localhost ~]# cat sedfile |sed '3d'|sed -n '1,4p'
=>删除第3行
line 1
line 2
line 4
line 5
[root@localhost ~]# cat sedfile |sed '2i insert line'|sed -n '1,5p'
=>在第2行上添加新的一行
line 1
insert line
line 2
line 3
line 4
[root@localhost ~]# cat sedfile |sed '2,3c replace line'|sed -n '1,3p'
=>替换2~3行
line 1
replace line
line 4
[root@localhost ~]# cat sedfile |sed '1,3s/ne/NEL/g'|sed -n '1,6p'
=>用NEL替换2~3行的ne
liNEL 1
liNEL 2
liNEL 3
line 4
line 5
line 6

举例2：使用sed直接修改文件

[root@localhost ~]# sed -i '$a this is line' sedfile ;cat sedfile|tail -n 2 
line 10
this is line

awk

(awk功能很强大，这里只是功能介绍性说明)

Awk 是一个数据处理工具，相比sed作用于一整行的处理，awk则将一行分为数个“字段”处理

awk的处理流程

1. 读入第一行，并将第一行的数据填入$0,$1,$2……等变量中

2. 依据条件类型的限制，判断是否需要后面的动作

3. 做完所有的动作与条件类型

4. 若还有后续的行的数据，则重复1-3步骤

语法：awk ‘条件类型1 {动作1}条件类型2 {动作2}……’ filename

说明：

1. awk默认用空格或tab来分割一行数据，并将数据填充到$1,$2..中

如：root pts1 192这一行， $1=root $2=pts1.

2. awk后方语句中非变量需使用双引号来定义，变量可以直接使用

awk内置变量

变量	描述
$n	当前记录的第n个字段，字段间由FS分隔。
$0	完整的输入记录。
ARGC	命令行参数的数目。
ARGIND	命令行中当前文件的位置(从0开始算)。
ARGV	包含命令行参数的数组。
CONVFMT	数字转换格式(默认值为%.6g)
ENVIRON	环境变量关联数组。
ERRNO	最后一个系统错误的描述。
FIELDWIDTHS	字段宽度列表(用空格键分隔)。
FILENAME	当前文件名。
FNR	同NR，但相对于当前文件。
FS	字段分隔符(默认是任何空格)。
IGNORECASE	如果为真，则进行忽略大小写的匹配。
NF	当前记录中的字段数。
NR	当前记录数。
OFMT	数字的输出格式(默认值是%.6g)。
OFS	输出字段分隔符(默认值是一个空格)。
ORS	输出记录分隔符(默认值是一个换行符)。
RLENGTH	由match函数所匹配的字符串的长度。
RS	记录分隔符(默认是一个换行符)。
RSTART	由match函数所匹配的字符串的第一个位置。
SUBSEP	数组下标分隔符(默认值是\034)。

awk运算符

运算符	描述
= += -= = /= %= ^= *=	赋值
?:	C条件表达式
\|\|	逻辑或
&&	逻辑与
~ ~!	匹配正则表达式和不匹配正则表达式
< <= > >= != ==	关系运算符
空格	连接
+ -	加，减
* / &	乘，除与求余
+ - !	一元加，减和逻辑非
^ ***	求幂
++ --	增加或减少，作为前缀或后缀
$	字段引用
in	数组成员

举例1：查看$1 NR NF

[root@bogon ~]# last -n 5 | awk '{print $1 "\t lines: " NR "\t cols: "NF }'
root     lines: 1        cols: 10
root     lines: 2        cols: 9
root     lines: 3        cols: 9
reboot   lines: 4        cols: 9
root     lines: 5        cols: 10

举例2：带有条件的，仅输出$1==root的数据

[root@bogon ~]# last -n 5 | awk '$1=="root" {print $1 "\t lines: " NR "\t cols: "NF }'
root     lines: 1        cols: 10
root     lines: 2        cols: 9
root     lines: 3        cols: 9
root     lines: 5        cols: 10

awk关键字

BEGIN

BEGIN关键字作用是预设，在读如第一行前面就执行BEGIN后面的动作

比如每一行默认分割方式是空格或是TAB，所以我们可以设置FS来改变分割符，但是此时第一行数据已经读取分析完毕，列信息已经存在$1，$2..中，改变只能从第2行开始。

举例：

[root@bogon ~]# cat /etc/passwd|head -n 5 |awk 'BEGIN {FS=":"} NR=="1" {print"UID\tGID"} NR>="1" {print $1 "\t" $3}'
UID     GID
root    0
bin     1
daemon  2
adm     3
lp      4

举例2 计算数据(num1+num2)

数据文件
month:num1:num2
1:100:150
2:200:250
3:300:350
4:400:450
5:500:550
6:600:650

[root@bogon ~]# cat cal.file |awk 'BEGIN {FS=":"} NR=="1" {print$1"\t"$2"\t"$3"\ttotal"} NR>"1" {print$1"\t"$2"\t"$3"\t"$2+$3}'

month   num1    num2    total
1       100     150     250
2       200     250     450
3       300     350     650
4       400     450     850
5       500     550     1050
6       600     650     1250

END

END操作将在扫描完全部的输入之后执行

举例：

[root@bogon ~]# cat cal.file |awk 'BEGIN {FS=":"} NR=="1" {print$1"\t"$2"\t"$3"\ttotal"} NR>"1" {print$1"\t"$2"\t"$3"\t"$2+$3} END {print "sum"}'
month   num1    num2    total
1       100     150     250
2       200     250     450
3       300     350     650
4       400     450     850
5       500     550     1050
6       600     650     1250
sum

正则表达式 td 字符

leap

0 关注 0 粉丝 0 动态

关注关注

C# 正则表达式

.Net 框架提供了允许这种匹配的正则表达式引擎。模式由一个或多个字符、运算符和结构组成。正则表达式中的反斜杠字符（\）指示其后跟的字符是特殊字符，或应按原义解释该字符。与报警符 \u0007 匹配。" + ‘\u0007‘ 中的 "

MaggieRose 2020-08-19

SHELL正则表达式

完成日常工作中我们需要得特定字符串匹配，或者从输出内容中匹配出符合我们需要得内容。1丶匹配标点符号[ ~]# grep ‘[[:punct:]]‘ /etc/fstab2丶匹配任意字母或者数字[ ~]# echo "I m Love ZhongG

山水沐光 2020-08-03

shell模糊匹配与正则详解

正则可以实现一些简单的功能，并用在脚本中，如检测ip地址是否符合规范，检测文件名是否符合规范等等。正则表达式主要是用来描述一个句法规则的模式。其实说的通俗一点，就是利用字符和元字符的组合，对一些符合既定句法的模式进行模糊匹配。它的主要功能是文本查询和字符串

wangzhaotongalex 2020-10-20

Shell—正则表达式（grep命令、sed工具）

正则表达式对于系统管理员来说是非常重要的，熟练运用正则表达式可使工作变得更加简单、方便。简单来说，是一种匹配字符串的方法，通过一些特殊符号，实现快速查找、删除、替换某个特定字符串。正则表达式对于系统管理员来说是非常重要的，系统运行过程中会产生大量的信息，这

rechanel 2020-11-16

【教程】图文解读正则表达式的使用技巧

一个好的正则表达式看起来像魔法，但请记住：任何足够先进的技术都无法与魔法区分开来。所以，就让我们揭开正则表达式的神秘面纱！如果你理解正则表达式，它会突然变成一个超快速和强大的工具……让我们从基础开始。它们的用途是什么？正则表达式通常用于 grep 等工具中

cshanzhizi 2020-10-16

如何掌握正则表达式这一开发利器，看这篇就够了

正则表达式具有伟大技术发明的一切特点，它简单、优美、功能强大、妙用无穷。对于很多实际工作来讲，正则表达式简直是灵丹妙药，能够成百倍地提高开发效率和程序质量。表示数字、大小写字母和下划线。表示空白符，包括空格、水平制表符、垂直制表符、换行符、回车符、换页符。

luofuIT成长记录 2020-09-22

如何使用Grep命令查找多个字符串

大家好，我是良许!今天向大家介绍一个非常有用的技巧，那就是使用 grep 命令查找多个字符串。简单介绍一下，grep 命令可以理解为是一个功能强大的命令行工具，可以用它在一个或多个输入文件中搜索与正则表达式相匹配的文本，然后再将每个匹配的文本用标准输出的

taomengxing 2020-09-07

正则表达式常用的字符类

=\") \"表示转义，即双引号"其中(?=)为正向预搜索，表示要匹配的字符串后面必须是".*?表示要匹配的部分比如：正式表达式：(?美国邮编的规则是5位数字，或者用连字号间隔的9位数字。之所以要给出这个例子是因为它

jyj00 2020-08-15

正则表达式

# Thompson将正则表达式引入到Unix中文本编辑器ed和grep命令中，由此正则表达式普# 及开来。# # 二.分类# # # BRE# 　　基本正则表达式，grep、sed、vi等软件支持。# # ERE# 　　扩展正则表达式，egrep、sed

MaggieRose 2020-07-04

正则表达式基础

[xyz]匹配字符x，y或z.如果中括号内包含元字符，则元字符降级为普通字符，即[+.?]匹配加号，点号或问号。通常 \ * + | { [ ( ) ] } ^ $ . # 和空白这些字符都需要转义，使用\进行标识转义

modaiairen 2020-06-28

小智最近在学习正则，学习过程中发现这 6 个方便的正则表达式

几乎所有流行的编程语言都支持正则表达式，因为正则实在是太强大了，它能让我们原本需要数十行代码才能完成的，正则大哥一行就能搞定了。在本文中，我们将研究前端开发人员经常必须处理的6个文本处理和操作，并了解正则表达式是如何简化这个过程的。假设我们想要匹配文本中包

ziggurat 2020-06-28

【python----发轫之始】【正则表达式总结】

能够按照某种模式匹配一系列具有相似特征的字符串。：作用是代表前面的字符出现0次或1次，即前面的字符可有可无。如遇到. $ ^ 等特殊字符，我们就得用“\”进行转义。返回指定组别中的元素。以字典的形式返回组名和对应的信息。将pattern中的repl 替换成

JnX 2020-06-27

第一章—正则表达式

是一些由字符和特殊符号组成的字符串，它们描述了模式的重复或者表述多个字符，于是正则表达式能按照某种模式匹配一系列有相似特征的字符串。搜索和匹配的比较匹配：用于严格讨论与字符串中模式相关的正则表达式时，指的是“模式匹配”。而用于python术语中，代表完成模

jyj00 2020-06-26

python——RE模块的基础应用及正则表达式的使用

re模块是python独有的匹配字符串的模块，该模块中提供的很多功能是基于正则表达式实现的，而正则表达式是对字符串进行模糊匹配，提取自己需要的字符串部分，他对所有的语言都通用。反斜杠不会被任何特殊方式处理。元字符就是指那些在正则表达式中具有特殊意义的专用字

山水沐光 2020-06-25

在 JavaScript 中替换所有指定字符 3 种方法

在 JS 没有提供一种简便的方法来替换所有指定字符。在 Java 中有一个 replaceAll() ，replaceAll)方法使用给定的参数 replacement 替换字符串所有匹配给定的正则表达式的子字符串。在该提案还没出来之前，我们来看看在 JS

shqhope 2020-06-23

10. 正则表达式匹配

给你一个字符串?和一个字符规律?p，请你来实现一个支持 ‘.‘?和?‘*‘?的正则表达式匹配。所谓匹配，是要涵盖?可能为空，且只包含从?因为 ‘‘ 代表可以匹配零个或多个前面的那一个元素, 在这里前面的元素就是 ‘a‘。因此，字符串 "aa&qu

eroshn 2020-06-21

leetcode之正则表达式匹配Golang

正则表达式这道题对我来说是真的难，花了两天的时间才做出来。做这道题首先需要注意的是点号`.`可以匹配任何字符，字符加星号`*`表示零个或者多个该字符，例如a*表示零个或者多个a，所以对于正则表达式中，后面不跟*的字符，在字符串s中必须找到对应的字符，对于正

码墨 2020-06-16

正则表达式中两个反斜杠的匹配规则详解

于是乎我就在思考，为什么会匹配不到，假设\t被转义成一个\t，那么也应该匹配到\tsanle,而不是none。而需要匹配的字符串\\\t -->两个反斜杠会变成一个反斜杠。然后就变成\\t了，然后就变成直接的一个tab键，他们就匹配上了。这就是我所理

wyq 2020-11-11

正则表达式解决input框固定输入值得格式(金额,特殊字符)

栗子：只能输入金额，只能输入小数且最多保留2位不能输入某。//这里我使用的是input，每输入一次就会检查，也可以使用change改变时检查或blur失去焦点时检查。message: "请输入小于1的数!&*――――\-+={}|《》？m

TLROJE 2020-10-26

浅析golang 正则表达式

Go是 Google 的 Robert Griesemer，Rob Pike 及 Ken Thompson 开发的一种静态强类型、编译型语言。Go 语言语法与 C 相近，但功能上有：内存安全，GC，结构形态及 CSP-style 并发计算。罗伯特格瑞史莫，

风雨断肠人 2020-10-13

字符	意义与范例
+	意义：重复一个或一个以上的字符举例：查找god,good,good等字符串 egrep ‘go+d’ file.txt
?	意义：0个过1个前一个字符举例：查找gd god egrep ‘go?d’ file.txt
\|	意义：用或的方式找出数个字符串举例：找出my ,own egrep ‘my\|own’ file.txt
()	意义：找出“组“的字符串举例：找出good 或glad egrep ‘g(oo\|la)d’ file.txt
()+	意义：多个重复组的判别举例：找出Axy123123123C egrep ‘Axy(123)+C’ file.txt

安科网

Linux学习记录--正则表达式与其应用

leap

正则表达式与其应用

正则表达式特殊符号

基础正则表达式字符

扩展正则表达式

sed

awk

awk的处理流程

awk内置变量

awk运算符

awk关键字

BEGIN

END

leap

相关推荐

C# 正则表达式

SHELL正则表达式

shell模糊匹配与正则详解

Shell—正则表达式（grep命令、sed工具）

【教程】图文解读正则表达式的使用技巧

如何掌握正则表达式这一开发利器，看这篇就够了

如何使用Grep命令查找多个字符串

正则表达式常用的字符类

正则表达式

正则表达式基础

小智最近在学习正则，学习过程中发现这 6 个方便的正则表达式

【python----发轫之始】【正则表达式总结】

第一章—正则表达式

python——RE模块的基础应用及正则表达式的使用

在 JavaScript 中替换所有指定字符 3 种方法

10. 正则表达式匹配

leetcode之正则表达式匹配Golang

正则表达式中两个反斜杠的匹配规则详解

正则表达式解决input框固定输入值得格式(金额,特殊字符)

浅析golang 正则表达式

leap