正则表达式小探

小尴尬

2012-07-06

正则表达式"（RegularExpression）就是一个字符构成的串，它定义了一个用来搜索匹配字符串的模式。

许多语言，包括Perl、PHP、Python、JavaScript和JScript，都支持用正则表达式处理文本，一些文本编辑器用正则表达式实现高级"搜索-替换"功能。那么Java又怎样呢？

你可以从Apache.org下载源代码开放的Jakarta-ORO库。

我首先将简要介绍使用Jakarta-ORO库时你必须创建和访问的对象，然后介绍如何使用Jakarta-OROAPI。创建一个Perl5Compiler类的实例，并把它赋值给PatternCompiler接口对象。Perl5Compiler是PatternCompiler接口的一个实现，允许你把正则表达式编译成用来匹配的Pattern对象。要把正则表达式编译成Pattern对象，调用compiler对象的compile()方法，并在调用参数中指定正则表达式。例如，你可以按照下面这种方式编译正则表达式"j[so]n"：默认情况下，编译器创建一个大小写敏感的模式（pattern）。因此，上面代码编译得到的模式只匹配"jsn"、"jon"，但不匹配"Jsn"和"joN"。

要创建一个大小写不敏感的模式，你应该在调用编译器的时候指定一个额外的参数：PatternMatcher对象根据Pattern对象和字符串进行匹配检查。你要实例化一个Perl5Matcher类并把结果赋值给PatternMatcher接口。Perl5Matcher类是PatternMatcher接口的一个实现，它根据Perl5正则表达式语法进行模式匹配：使用PatternMatcher对象，你可以用多个方法进行匹配操作，这些方法的第一个参数都是需要根据正则表达式进行匹配的字符串：

-booleanmatches(Stringinput,Patternpattern)：当输入字符串和正则表达式要精确匹配时使用。换句话说，正则表达式必须完整地描述输入字符串。

-booleanmatchesPrefix(Stringinput,Patternpattern)：当正则表达式匹配输入字符串起始部分时使用。

-booleancontains(Stringinput,Patternpattern)：当正则表达式要匹配输入字符串的一部分时使用（即，它必须是一个子串）。

另外，在上面三个方法调用中，你还可以用PatternMatcherInput对象作为参数替代String对象；这时，你可以从字符串中最后一次匹配的位置开始继续进行匹配。当字符串可能有多个子串匹配给定的正则表达式时，用PatternMatcherInput对象作为参数就很有用了。用PatternMatcherInput对象作为参数替代String时，上述三个方法的语法如下：

-booleanmatches(PatternMatcherInputinput,Patternpattern)

-booleanmatchesPrefix(PatternMatcherInputinput,Patternpattern)

-booleancontains(PatternMatcherInputinput,Patternpattern)Perl5Util查找格式：

[m]/pattern/[i][m][s][x]

第一个m写不写都可以

i忽略大小写

m多行模式

s单行模式

x使用扩展语法

查找MyDoc/Java/SimpleJava时

正常写法"m/MyDoc

/Java/SimpleJava/"

扩展写法"m#MyDoc/Java/SimpleJava#x"

例：查找字符串中包含的数字,匹配一次或多次例：分组输出Perl5Utilutil=newPerl5Util();PatternMatcherInputmatcherInput=newPatternMatcherInput("192.168.0.1@08/10/2010");while(util.match("m#08(/10/)2010#x",matcherInput)){MatchResultresult=util.getMatch();System.out.printf("%s:%s\n",0,result.group(0));System.out.printf("%s:%s\n",1,result.group(1));}输出：0:08/10/20101:/10/

Perl5Util替换格式：

s/pattern/replacement/[g][i][m][o][s][x]

第一个s必须要写

g全部替换。默认只替换第一个

i忽略大小写

m多行模式

o只替换第一个

s单行模式

x使用扩展语法

例：替换,将"-"替换成","全局搜索注：Java5的正则表达式的实现可能会导致JVM的崩溃；在递归处理上性能极度低下.最好用oro库来解决这类问题。详见宝典.匹配任意字符*修饰匹配符为0次任意次

^匹配输入行的开始位置$匹配输入行的结束位置

+修饰匹配符至少1次?修饰匹配符0次或1次

[]用来自定义匹配"多种字符"表达式{}修饰匹配次数的符号

\s空格\S非"空格"字符

\d匹配任何一个0-9数字\D匹配一个非0-9数字

\w匹配一个数字、字母或下划线\W匹配一个非数字、字母和下划线

*?非贪婪修饰匹配符为0次任意次+?非贪婪修饰匹配符至少一次

??非贪婪修饰匹配符0次或1次()把一个表达式做为一个匹配整体

｜两边的表达式为"或"的关系

在正则表达式中对一些特殊符号和特殊含义的字符的使用需要用"\"进行转义操作，需要转义的字符除了包括以上列出的"元字符"外，还有以下这些具有具体含义的字符：用在正则表达式结尾。例如/asdf/i,"i"即为"修饰符"，意思是不区分大小写的匹配"asdf"。所有修饰符的含义如下表：g全局匹配i忽略大小写

m多行匹配s把整个匹配串当作一行处理

x允许注释和空格的出现

jakarta-oro包下载：http://jakarta.apache.org/site/downloads/downloads_oro.cgihttp://www.360doc.com/content/10/0805/09/561_43777969.shtml

正则表达式 python字符串操作

安科网

正则表达式小探

小尴尬

小尴尬

相关推荐

shell模糊匹配与正则详解

正则表达式中两个反斜杠的匹配规则详解

正则表达式解决input框固定输入值得格式(金额,特殊字符)

浅析golang 正则表达式

Oracle数据库正则表达式使用场景代码实例

Shell—正则表达式（grep命令、sed工具）

【教程】图文解读正则表达式的使用技巧

如何掌握正则表达式这一开发利器，看这篇就够了

基于xpath选择器、PyQuery、正则表达式的格式清理工具详解

3个助你玩转正则表达式的利器

如何使用Grep命令查找多个字符串

C# 正则表达式

正则表达式常用通配符

正则表达式在NLP中应用

正则表达式匹配样例

正则表达式常用的字符类

用正则表达式验证表格的格式

SHELL正则表达式

02-re模块使用

正则表达式 I

小尴尬