正则表达式

     在我们的编程中少不了要做各种各样的正则验证,每次都上去网上漫无目的的找吗?还是去问身边的大牛?假设现在网上没有了,大牛也放假了,让我带着大家来自己写正则验证!

先放一个小例子我们最常用的邮箱的正则验证:

-(BOOL)checkEmaliAddress:(NSString*)address

{

    NSString *emailRegex=@"^\\w+([-+.]\\w+)*@\\w+([-.]\\w+)*\\.\\w+([-.]\\w+)*$";

    NSPredicate *p=[NSPredicate predicateWithFormat:@"SELF MATCHES%@",emailRegex];

    return [p evaluateWithObject:address];

}

下面我们自己来写正则表达式:(从基础学习)
\b:是正则表达式规定的一个特殊代码(我们可以叫它元字符),代表着单词的开头或结尾,也就是单词的分界处。虽然通常英文的单词是由空格,标点符号或者换行来分隔的,但是\b并不匹配这些单词分隔字符中的任何一个,它只匹配一个位置。
例:\babc:abc为某个单词的开始
abc\b:abc为某个单词的结束
.:是另一个元字符,匹配除了换行符(\n)以外的任意字符。
*:同样是元字符,不过它代表的不是字符,也不是位置,而是数量——它指定*前边的内容可以连续重复使用任意次以使整个表达式得到匹配。
例:.*:是匹配任意数量的出换行符外的任意字符。
\bhi\b.*\bLucy\b:查找hi和lucy之间可以有任意数量任意字符(除换行符以外)。
\d:是个新的元字符,匹配一位数字(0,或1,或2,或……)。
例:0\d{2}-\d{8}:以0开头后面是2个任意数字加上-后面是8个任意数字。
\s:匹配任意的空白符,包括空格,制表符(Tab),换行符(\n),中文全角空格等。
\w:匹配字母或数字或下划线或汉字等。

^:类似\b代表字符串的开始。

$:类似\b代表字符串的开始。

例:^\d{5,12}$:5到12位的数字。可以作为QQ号的正则验证。

Windows\d+:匹配windows后面跟一个或者多个数字。

^\w+:匹配以字母数字下划线开头的一个或多个字符。

[]:匹配中括号里的任意一个字符。

例:[aeiou]:匹配aeiou中的任意一个字符。

[.?!]:匹配。?!中的任一个标点符号。

[0-9]:匹配0到9中任一个数字。

[a-z0-9A-Z_]:匹配字母数字下划线中的任一个。若不考虑汉字,其作用等同于\w。

前面我们讲了几个常用的元字符和数量限制条件,大家感觉不好记也没关系最后我会将表格付到后面。


正则表达式
 


正则表达式

接下来我们来看一下对元字符的进一步应用

分枝条件:同时列出几种可能的规则,只要符合其中一种即可。条件之间用“|”分割。

例:0\d{2}-\d{8}|0\d{3}-\d{7}:匹配0后面跟2位数字,-后面跟8位数字,或0后面跟3位数字,-后面跟7位数字。010-33424242或0531-3442242

\(0\d{2}\)[- ]?\d{8}|0\d{2}[- ]?\d{8}:匹配一对小括号里面0后面跟2位数字,-或空格任选一个或都没有,后面跟8位数字。或者0后面跟3位数字,-或空格任选一个或都没有,后面跟8位数字。(010)44444444,(010)-11111111,(010) 32231234,01044444444,010-11111111,010 32231234。

\d{5}-\d{4}|\d{5}:5位数字-4位数字或者直接5位数字。匹配美国的邮政编码。

注意:使用分支条件的时候要注意每个分支条件的顺序,例如前面的例子若改为\d{5}|\d{5}-\d{4}结果就会有问题,有5位数字或9位数字的前5位即会匹配。正则的分支结构是从左到右顺序匹配的,一旦匹配满足上就不会管后面的内容。

分组:将一个表达式用小括号括起来看作一个整体,称为分组。

例:(\d{1,3}\.){3}\d{1,3}:1到3位数字重复3遍,并且每3组加".",再跟一组1到3位数字。简单的IP地址匹配。


正则表达式
现在我们只知道捕获的第一种语法,关于第二种和第三种接下来会讲。

反义:有时候我们要查找的不是简单定义的字符类字符串,例如除什么以外的任意字符串,就用到了反义。


正则表达式
 例:\S+:不包含空格的任意字符串。

       <a[^>]+>:用尖括号括起来的以a为开头后面除了大于号以外的所有字符串。

后向引用:使用小括号指定一个子表达式后,匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。默认情况下,每个分组会自动拥有一个组号,规则是:从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推。

看的晕吗?简单的说就是将自己定义的正则规则给个命名,以后用到相同的规则可以用这个名字代替,系统有默认的名字,当然也可以重命名。

后向引用重命名:(?<name>exp)exp为自定义正则。(?:exp)好特别,既不会给将正则匹配到某个组里,也不会将使他拥有默认组号,至于这个语法的作用我也不清楚,有大神知道可以给我回复一下~~在这里拜谢了~~

 零宽断言:指定一个位置,此位置要满足某种条件。其中包括零宽度正预测先行断言、零宽度正回顾后发断言。

零宽度正预测先行断言(?=exp):断言自身出现的位置的后面能匹配表达式exp

例:\b\w+(?=ing\b):匹配以ing结尾的前面有一个或多个字母数字下划线汉字。

零宽度正回顾后发断言(?<=exp):断言自身出现的位置的前面能匹配表达式exp。

例:(?<=\bre)\w+\b:匹配以re开头的后面是一个或多个字母数字下划线汉字。

负向零宽断言:确保某个字符没有出现。其中包括零宽度负预测先行断言、零宽度负回顾后发断言。

零宽度负预测先行断言(?!exp):断言此位置的后面不能匹配表达式exp。

例:\d{3}(?!\d):匹配3位数字并且3位数字的后面不能跟数字。

零宽度负回顾后发断言(?<!exp):断言此位置的前面不能匹配表达式exp。

例:(?<![a-z])\d{7}:匹配前面不是小写字母的7位数字。

例:(?<=<(\w+)>).*(?=<\/\1>):匹配不包含属性的简单HTML标签内里的内容。

                                                                           未完待续。。。。

相关推荐