Flex正则表达式中的通用规则
本文和大家重点讨论一下Flex正则表达式的其他通用规则,首先让我们看一下Flex正则表达式的概念和作用,Flex正则表达式(regularexpression)就是用一个“字符串”来描述一个特征,然后去验证另一个“字符串”是否符合这个特征。
引言
Flex正则表达式(regularexpression)就是用一个“字符串”来描述一个特征,然后去验证另一个“字符串”是否符合这个特征。比如表达式“ab+”描述的特征是“一个'a'和任意个'b'”,那么'ab','abb','abbbbbbbbbb'都符合这个特征。
Flex正则表达式可以用来:
(1)验证字符串是否符合指定特征,比如验证是否是合法的邮件地址。
(2)用来查找字符串,从一个长的文本中查找符合指定特征的字符串,比查找固定字符串更加灵活方便。
(3)用来替换,比普通的替换更强大。
Flex正则表达式学习起来其实是很简单的,不多的几个较为抽象的概念也很容易理解。之所以很多人感觉Flex正则表达式比较复杂,一方面是因为大多数的文档没有做到由浅入深地讲解,概念上没有注意先后顺序,给读者的理解带来困难;另一方面,各种引擎自带的文档一般都要介绍它特有的功能,然而这部分特有的功能并不是我们首先要理解的。下面看一下Flex正则表达式中的其他通用规则。
1.其他通用规则
还有一些在各个Flex正则表达式引擎之间比较通用的规则,在前面的讲解过程中没有提到。
1.1表达式中,可以使用"\xXX"和"\uXXXX"表示一个字符("X"表示一个十六进制数)
形式 字符范围
\xXX
编号在0~255范围的字符,比如:空格可以使用"\x20"表示
\uXXXX
任何字符可以使用"\u"再加上其编号的4位十六进制数表示,比如:"\u4E2D"
1.2在Flex正则表达式"\s","\d","\w","\b"表示特殊意义的同时,对应的大写字母表示相反的意义
表达式可匹配
\S
匹配所有非空白字符("\s"可匹配各个空白字符)
\D
匹配所有的非数字字符
\W
匹配所有的字母、数字、下划线以外的字符
\B
匹配非单词边界,即左右两边都是"\w"范围或者左右两边都不是"\w"范围时的字符缝隙
1.3在Flex正则表达式中有特殊意义,需要添加"\"才能匹配该字符本身的字符汇总
字符说明
^
匹配输入字符串的开始位置。要匹配"^"字符本身,请使用"\^"
$
匹配输入字符串的结尾位置。要匹配"$"字符本身,请使用"\$"
()
标记一个子表达式的开始和结束位置。要匹配小括号,请使用"\("和"\)"
[]
用来自定义能够匹配'多种字符'的表达式。要匹配中括号,请使用"\["和"\]"
{}
修饰匹配次数的符号。要匹配大括号,请使用"\{"和"\}"
.
匹配除了换行符(\n)以外的任意一个字符。要匹配小数点本身,请使用"\."
?
修饰匹配次数为0次或1次。要匹配"?"字符本身,请使用"\?"
+
修饰匹配次数为至少1次。要匹配"+"字符本身,请使用"\+"
*
修饰匹配次数为0次或任意次。要匹配"*"字符本身,请使用"\*"
|
左右两边表达式之间"或"关系。匹配"|"本身,请使用"\|"
1.4括号"()"内的子表达式,如果希望匹配结果不进行记录供以后使用,可以使用"(?:xxxxx)"格式
举例1:表达式"(?\w)\1)+"匹配"abbccddefg"时,结果是"bbccdd"。括号"(?"范围的匹配结果不进行记录,因此"(\w)"使用"\1"来引用。
1.5常用的Flex正则表达式属性设置简介:Ignorecase,Singleline,Multiline,Global
表达式属性说明
Ignorecase
默认情况下,表达式中的字母是要区分大小写的。配置为Ignorecase可使匹配时不区分大小写。有的表达式引擎,把"大小写"概念延伸至UNICODE范围的大小写。
Singleline
默认情况下,小数点"."匹配除了换行符(\n)以外的字符。配置为Singleline可使小数点可匹配包括换行符在内的所有字符。
Multiline
默认情况下,表达式"^"和"$"只匹配字符串的开始①和结尾④位置。如:
①xxxxxxxxx②\n
③xxxxxxxxx④
配置为Multiline可以使"^"匹配①外,还可以匹配换行符之后,下一行开始前③的位置,使"$"匹配④外,还可以匹配换行符之前,一行结束②的位置。