正则表达式

LZTuna

2013-01-16

关注关注

在我们的编程中少不了要做各种各样的正则验证，每次都上去网上漫无目的的找吗？还是去问身边的大牛？假设现在网上没有了，大牛也放假了，让我带着大家来自己写正则验证！

先放一个小例子我们最常用的邮箱的正则验证：

-(BOOL)checkEmaliAddress:(NSString*)address

{

NSString *emailRegex=@"^\\w+([-+.]\\w+)*@\\w+([-.]\\w+)*\\.\\w+([-.]\\w+)*$";

NSPredicate *p=[NSPredicate predicateWithFormat:@"SELF MATCHES%@",emailRegex];

return [p evaluateWithObject:address];

}

下面我们自己来写正则表达式：（从基础学习）

\b：是正则表达式规定的一个特殊代码（我们可以叫它元字符），代表着单词的开头或结尾，也就是单词的分界处。虽然通常英文的单词是由空格，标点符号或者换行来分隔的，但是\b并不匹配这些单词分隔字符中的任何一个，它只匹配一个位置。

例：\babc：abc为某个单词的开始

abc\b：abc为某个单词的结束

.：是另一个元字符，匹配除了换行符（\n）以外的任意字符。

*：同样是元字符，不过它代表的不是字符，也不是位置，而是数量——它指定*前边的内容可以连续重复使用任意次以使整个表达式得到匹配。

例：.*：是匹配任意数量的出换行符外的任意字符。

\bhi\b.*\bLucy\b：查找hi和lucy之间可以有任意数量任意字符（除换行符以外）。

\d：是个新的元字符，匹配一位数字(0，或1，或2，或……)。

例：0\d{2}-\d{8}：以0开头后面是2个任意数字加上-后面是8个任意数字。

\s：匹配任意的空白符，包括空格，制表符(Tab)，换行符(\n)，中文全角空格等。

\w：匹配字母或数字或下划线或汉字等。

^：类似\b代表字符串的开始。

$：类似\b代表字符串的开始。

例：^\d{5,12}$：5到12位的数字。可以作为QQ号的正则验证。

Windows\d+：匹配windows后面跟一个或者多个数字。

^\w+：匹配以字母数字下划线开头的一个或多个字符。

[]：匹配中括号里的任意一个字符。

例：[aeiou]：匹配aeiou中的任意一个字符。

[.?!]：匹配。？！中的任一个标点符号。

[0-9]：匹配0到9中任一个数字。

[a-z0-9A-Z_]：匹配字母数字下划线中的任一个。若不考虑汉字，其作用等同于\w。

前面我们讲了几个常用的元字符和数量限制条件，大家感觉不好记也没关系最后我会将表格付到后面。

正则表达式

接下来我们来看一下对元字符的进一步应用

分枝条件：同时列出几种可能的规则，只要符合其中一种即可。条件之间用“|”分割。

例：0\d{2}-\d{8}|0\d{3}-\d{7}：匹配0后面跟2位数字，-后面跟8位数字，或0后面跟3位数字，-后面跟7位数字。010-33424242或0531-3442242

$0\d{2}$[- ]?\d{8}|0\d{2}[- ]?\d{8}：匹配一对小括号里面0后面跟2位数字，-或空格任选一个或都没有，后面跟8位数字。或者0后面跟3位数字，-或空格任选一个或都没有，后面跟8位数字。（010）44444444，（010）-11111111，（010） 32231234，01044444444，010-11111111，010 32231234。

\d{5}-\d{4}|\d{5}：5位数字-4位数字或者直接5位数字。匹配美国的邮政编码。

注意：使用分支条件的时候要注意每个分支条件的顺序，例如前面的例子若改为\d{5}|\d{5}-\d{4}结果就会有问题，有5位数字或9位数字的前5位即会匹配。正则的分支结构是从左到右顺序匹配的，一旦匹配满足上就不会管后面的内容。

分组：将一个表达式用小括号括起来看作一个整体，称为分组。

例：(\d{1,3}\.){3}\d{1,3}：1到3位数字重复3遍，并且每3组加"."，再跟一组1到3位数字。简单的IP地址匹配。

正则表达式
现在我们只知道捕获的第一种语法，关于第二种和第三种接下来会讲。

反义：有时候我们要查找的不是简单定义的字符类字符串，例如除什么以外的任意字符串，就用到了反义。

正则表达式
例：\S+：不包含空格的任意字符串。

<a[^>]+>：用尖括号括起来的以a为开头后面除了大于号以外的所有字符串。

后向引用：使用小括号指定一个子表达式后，匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。默认情况下，每个分组会自动拥有一个组号，规则是：从左向右，以分组的左括号为标志，第一个出现的分组的组号为1，第二个为2，以此类推。

看的晕吗？简单的说就是将自己定义的正则规则给个命名，以后用到相同的规则可以用这个名字代替，系统有默认的名字，当然也可以重命名。

后向引用重命名：(?<name>exp)exp为自定义正则。(?:exp)好特别，既不会给将正则匹配到某个组里，也不会将使他拥有默认组号，至于这个语法的作用我也不清楚，有大神知道可以给我回复一下～～在这里拜谢了～～

零宽断言：指定一个位置，此位置要满足某种条件。其中包括零宽度正预测先行断言、零宽度正回顾后发断言。

零宽度正预测先行断言(?=exp)：断言自身出现的位置的后面能匹配表达式exp

例：\b\w+(?=ing\b)：匹配以ing结尾的前面有一个或多个字母数字下划线汉字。

零宽度正回顾后发断言(?<=exp)：断言自身出现的位置的前面能匹配表达式exp。

例：(?<=\bre)\w+\b：匹配以re开头的后面是一个或多个字母数字下划线汉字。

负向零宽断言：确保某个字符没有出现。其中包括零宽度负预测先行断言、零宽度负回顾后发断言。

零宽度负预测先行断言(?!exp)：断言此位置的后面不能匹配表达式exp。

例：\d{3}(?!\d)：匹配3位数字并且3位数字的后面不能跟数字。

零宽度负回顾后发断言(?<!exp)：断言此位置的前面不能匹配表达式exp。

例：(?<![a-z])\d{7}：匹配前面不是小写字母的7位数字。

例：(?<=<(\w+)>).*(?=<\/\1>)：匹配不包含属性的简单HTML标签内里的内容。

未完待续。。。。

正则表达式

安科网

正则表达式

LZTuna

LZTuna

相关推荐

shell模糊匹配与正则详解

正则表达式中两个反斜杠的匹配规则详解

正则表达式解决input框固定输入值得格式(金额,特殊字符)

浅析golang 正则表达式

Oracle数据库正则表达式使用场景代码实例

Shell—正则表达式（grep命令、sed工具）

【教程】图文解读正则表达式的使用技巧

如何掌握正则表达式这一开发利器，看这篇就够了

基于xpath选择器、PyQuery、正则表达式的格式清理工具详解

3个助你玩转正则表达式的利器

如何使用Grep命令查找多个字符串

C# 正则表达式

正则表达式常用通配符

正则表达式在NLP中应用

正则表达式匹配样例

正则表达式常用的字符类

用正则表达式验证表格的格式

SHELL正则表达式

02-re模块使用

正则表达式 I

LZTuna