java正则表达式括号的使用

正则表达式括号的使用

1 分组

上一章提到过的量词只针对紧邻的字符(组)起作用,例如HTML语言中的标签<table></table>匹配:

<table[\s>][\s\S]+?</table>

其中忽略优先量词+?,只对紧邻的字符组[\s\S]起作用,如果需要对之前所有的部分起作用就需要用到圆括号(),写成:

(<table[\s>][\s\S])+?</table>

起到了将<table[\s>][\s\S]看做一个整体的作用,即分组。

2 多选结构

括号的第二个作用就是制造出一个多选结构,两个或以上个表达式中都是合法匹配的表达式(适用多种情况时),多选结构的形式是(...|...),用竖线|分割子表达式,这些子表达式也叫多选分支,多选分支可以有好多个,只要有1个分支匹配成功即宣告匹配成功,否则匹配失败,可以类比C语言中的switch-case结构,失败就走default下的代码。

3 Pattern

Pattern对应正则表达式对象,如何把一个字符串变成程序可以识别的正则表达式?这就需要用到Pattern的方法compile():

Pattern pattern = Pattern.compile(String regex);

regex 是提前编辑好的正则表达式字符串。这样编译好的正则表达式可以为接下来的切分或者匹配操作铺垫。

4 Matcher

Matcher可以理解为“某次匹配的结果对象”。就是把编译过的Pattern对象应用到某个String对象(下面的例子使用text表示),产生的Matcher对象结果。例如:

Pattern pattern = Pattern.compile(String regex);

Matcher matcher = pattern.matcher(String text);

那么如何获取到匹配成功的结果呢?Matcher对象调用方法find(),返回true就表示找到一个匹配,反之false就是没找到。进一步地如果想要得到匹配的内容呢?

为了解决这个问题,就先切到括号的下一个使用方法。

5 引用分组

在使用括号之后,正则表达式会保存每个分组真正匹配的字符串。这种功能叫做捕获分组,括号叫做捕获型括号。那么如何根据个人的意愿选择输出某一个分组,或者某几个分组?

答案是,使用编号,从表达式最左边的左括号编号记为1,这一对左右括号之间的部分为分组1,例如:

表达式:((\d{1})-(\d{2})-(\d{3}))

1号分组:(\d{1})-(\d{2})-(\d{3})

2号分组:\d{1}

3号分组:\d{2}

4号分组:\d{3}

Matcher对象可以调用group(int i)方法,获取相应的分组,其中i是分组编号,0号分组是表示整个表达式所捕获的分组:

while(matcher.find()){

   System.out.println(matcher.group());

   //不加参数i相当于i=0

}

相关推荐