Linux文本处理工具grep和正则表达式及egrep与grep区别
文本处理工具grep,正则表达式在Linux学习过程中很容易出现困惑与障碍的地方,这里分享下学习这方面内容的一些感受。
grep Global search REgular expression and Print out the line
作用:文本搜索工具,根据用户指定的‘模式(过滤条件)’对目标文本逐行进行匹配检查;打印匹配到的行;
‘模式’:由正则表达式的元字符及文本字符所编写出的过滤条件。
grep [OPTIONS] PATTERN [FILE...]
grep [OPTIONS] [-e PATTERN | -f FILE] [FILE...]
常用选项:
-i:忽略字符大小写
-o:仅显示匹配到的字符串本身
-v:显示不能被模式匹配到的行
-E:支持扩展正则表达式元字符
-q:静默模式,匹配不显示
-A#:after,显示匹配条件所在行的后#行
-B#:before,显示匹配条件所在行的前#行
-C#:context,显示匹配条件所在行的前后#行
-n:显示匹配的行号(用的较少)
-c: 统计匹配的行数(用的较少)
下面以几个小实验对grep的用法及选项做下具体的演示
实验目录/test 文本/test/head
1 2 3 4 5 6 7 8 9 | [root@localhost test ] # cat head 12345 Sdabc saber Berar bserac 12cds 67890 12 345 123 6 |
正则表达式:Regual Expression,REGEXP
它由一类特殊字符及文本字符所编写的模式,其中有些字符不表示其字面意义,而是用于表示控制或通配的功能。
它分两类:基本正则表达式BRE、扩展正则表达式ERE
基本正则表达式元字符:
包括:字符匹配、匹配次数、位置锚定、分组
字符匹配:
. :匹配任意单个字符; [] :匹配指定范围内的任意单个字符
[^] :匹配指定范围外的任意单个字符
常用集合:[:digit:]、[:lower:]、[:upper:]、[:alpha:]、[:alnum:]、[:punct:]、[:space:]
匹配次数:用在要指定次数的字符后面,用于指定前面的字符要出现的次数
*:匹配前面的字符任意次,包括0次;贪婪模式:尽可能长的匹配
.*:任意长度的任意字符
\?:匹配其前面的字符0或1次
\+:匹配其前面的字符至少1次
\{m\}:匹配前面的字符m次
\{m,n\}:匹配前面的字符至少m次,至多n次
\{,n\}:匹配前面的字符至多n次
\{m,\}:匹配前面的字符至少m次
位置锚定:定位出现的位置
^:行首锚定,用于模式的最左侧
$:行尾锚定,用于模式的最右侧
^PATTERN$: 用于模式匹配整行
^$: 空行
^[[:space:]]*$ :空白行
单词:非特殊字符组成的连续字符在Linux看来都称单词
\< 或\b:词首锚定,用于单词模式的左侧
\> 或\b:词尾锚定;用于单词模式的右侧
\<PATTERN\>:匹配完整的单词
1、查找以for开头的行
2、检索只含有for的字符串;检索含有for的内容
3、检索以for结尾的行;检索以for结尾的字符串
分组:\(\):将一个或多个字符捆绑在一起,当作一个整体进行处理,如:\(root\)\+
分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中,这些变量的命名方式为: \1, \2, \3, ...
\1: 从左侧起,第一个左括号以及与之匹配右括号之间的模式所匹配到的字符;
实例:\(string1\+\(string2\)*\)
\1: string1\+\(string2\)*
\2: string2
后向引用:引用前面的分组括号中的模式所匹配字符(而非模式本身)
上述命令意思是检索包含有for字符串后跟任意字符且出现一次,连续出现上述情况两次截取结果。后面的\1是重复第一个括号内的检索对象。
egrep= grep -E
egrep[OPTIONS] PATTERN [FILE...]
扩展正则表达式的元字符:
字符匹配:同基本正则表达式
次数匹配:
*:匹配前面字符任意次
?: 0或1次
+:1次或多次
{m}:匹配m次
{m,n}:至少m,至多n次
位置锚定:同基本正则表达式
分组:
()
后向引用:\1, \2, ...
或者:
a|b
C|cat: C或cat
(C|c)at:Cat或cat
最后我们通过9个例子来感受grep与正则表达式结合所能实现的功能
1、显示/proc/meminfo文件中以大小s开头的行
这个只需要知道grep的选项i就能轻松解决。
2、显示/etc/passwd文件中不以/bin/bash结尾的行
先使用grep检索出包含有以“/bin/bash”结尾的行,再使用grep的-v取不以上面结果的行。类似数学中的补集效果。
3、找出ifconfig命令结果中本机的所有IPv4地址
这个分为三步:
1)通过grep锁定包含有IPV4的行,这个通过分析ifconfig列出的信息可以看出规律,只要包含有IPv4的开头都有inet这个字母,所以我们只需要检索它就行了
2)接下来使用tr将所有空替换为“:”并压缩
3)使用cut实现结果。
4、查出分区空间使用率的最大百分比值
这个大致分6步:
1)过滤汉字
2)使用tr替换所有空为":"并压缩
3)使用cut剪切出含有使用率百分比的数值
4)再次使用tr剔除%
5)使用sort按数值大小写排序
6)使用tail取出最大值
5、显示用户rpc默认的shell程序
上面的检索条件是以rpc为行首且以它为字符结尾的行
6、找出/etc/passwd中的两位或三位数
这里使用的是扩展正则表达式因为可以是表达式更简洁
这里需要注意的是要以两位或三位数为字符串,这需要对其进行开头与结尾的字符锚定
7、找出/etc/rc.d/init.d/functions文件中行首为某单词(包括下划线)后面跟一个小括号的行
当我们想好要过滤的条件后,要对其进行行首及字符的锚定,否则会导致条件范围不严谨
这里要注意的是.*\>\(\),如果这里改写为.*\(\)\>则会失败,具体可以自己想想。其实.*已经包括了"()",所以后面的是重复的,这样就容易出错。
8、使用egrep取出/etc/rc.d/init.d/functions中其基名
上面是两种方法,一种利用grep直接检索出来,另一种的思想是分割。各有特点
9、利用扩展正则表达式分别表示0-9、10-99、100-199、200-249、250-255
\<[0-9]\>:0-9
\<[1-9][0-9]|>:10-99
\<1[0-9][0-9]\> | \<1[0-9]{2}\>:100-199
\<2[0-4][0-9]\> :200-249
\<25[0-5]\>:250-255
上面只是对grep及正则表达式的简要总结,不过只要掌握好这基本的内容自己也就可以进行更深入的学习了。