正则表达式.docx
《正则表达式.docx》由会员分享,可在线阅读,更多相关《正则表达式.docx(18页珍藏版)》请在冰豆网上搜索。
正则表达式
正则表达式使用详解
如果我们问那些UNIX系统的爱好者他们最喜欢什么,答案除了稳定的系统和可以远程启动之外,十有八九的人会提到正则表达式;如果我们再问他们最头痛的是什么,可能除了复杂的进程控制和安装过程之外,还会是正则表达式。
那么正则表达式到底是什么?
如何才能真正的掌握正则表达式并正确的加以灵活运用?
本文将就此展开介绍,希望能够对那些渴望了解和掌握正则表达式的读者有所助益。
入门简介
简单的说,正则表达式是一种可以用于模式匹配和替换的强有力的工具。
我们可以在几乎所有的基于UNIX系统的工具中找到正则表达式的身影,例如,vi编辑器,Perl或PHP脚本语言,以及awk或sedshell程序等。
此外,象JavaScript这种客户端的脚本语言也提供了对正则表达式的支持。
由此可见,正则表达式已经超出了某种语言或某个系统的局限,成为人们广为接受的概念和功能。
正则表达式可以让用户通过使用一系列的特殊字符构建匹配模式,然后把匹配模式与数据文件、程序输入以及WEB页面的表单输入等目标对象进行比较,根据比较对象中是否包含匹配模式,执行相应的程序。
举例来说,正则表达式的一个最为普遍的应用就是用于验证用户在线输入的邮件地址的格式是否正确。
如果通过正则表达式验证用户邮件地址的格式正确,用户所填写的表单信息将会被正常处理;反之,如果用户输入的邮件地址与正则表达的模式不匹配,将会弹出提示信息,要求用户重新输入正确的邮件地址。
由此可见正则表达式在WEB应用的逻辑判断中具有举足轻重的作用。
基本语法
在对正则表达式的功能和作用有了初步的了解之后,我们就来具体看一下正则表达式的语法格式。
正则表达式的形式一般如下:
/love/
其中位于“/”定界符之间的部分就是将要在目标对象中进行匹配的模式。
用户只要把希望查找匹配对象的模式内容放入“/”定界符之间即可。
为了能够使用户更加灵活的定制模式内容,正则表达式提供了专门的“元字符”。
所谓元字符就是指那些在正则表达式中具有特殊意义的专用字符,可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式。
较为常用的元字符包括:
“+”,“*”,以及“?
”。
其中,“+”元字符规定其前导字符必须在目标对象中连续出现一次或多次,“*”元字符规定其前导字符必须在目标对象中出现零次或连续多次,而“?
”元字符规定其前导对象必须在目标对象中连续出现零次或一次。
下面,就让我们来看一下正则表达式元字符的具体应用。
/fo+/
因为上述正则表达式中包含“+”元字符,表示可以与目标对象中的“fool”,“fo”,或者“football”等在字母f后面连续出现一个或多个字母o的字符串相匹配。
/eg*/
因为上述正则表达式中包含“*”元字符,表示可以与目标对象中的“easy”,“ego”,或者“egg”等在字母e后面连续出现零个或多个字母g的字符串相匹配。
/Wil?
/
因为上述正则表达式中包含“?
”元字符,表示可以与目标对象中的“Will”,或者“Wilson”,等在字母i后面连续出现零个或一个字母l的字符串相匹配。
除了元字符之外,用户还可以精确指定模式在匹配对象中出现的频率。
例如,
/jim{2,6}/
上述正则表达式规定字符m可以在匹配对象中连续出现2-6次,因此,上述正则表达式可以同jimmy或jimmmmmy等字符串相匹配。
在对如何使用正则表达式有了初步了解之后,我们来看一下其它几个重要的元字符的使用方式。
s:
用于匹配单个空格符,包括tab键和换行符;
S:
用于匹配除单个空格符之外的所有字符;
d:
用于匹配从0到9的数字;
w:
用于匹配字母,数字或下划线字符;
W:
用于匹配所有与w不匹配的字符;
.:
用于匹配除换行符之外的所有字符。
(说明:
我们可以把s和S以及w和W看作互为逆运算)
下面,我们就通过实例看一下如何在正则表达式中使用上述元字符。
/s+/
上述正则表达式可以用于匹配目标对象中的一个或多个空格字符。
/d000/
如果我们手中有一份复杂的财务报表,那么我们可以通过上述正则表达式轻而易举的查找到所有总额达千元的款项。
除了我们以上所介绍的元字符之外,正则表达式中还具有另外一种较为独特的专用字符,即定位符。
定位符用于规定匹配模式在目标对象中的出现位置。
较为常用的定位符包括:
“^”,“$”,“_”以及“B”。
其中,“^”定位符规定匹配模式必须出现在目标字符串的开头,“$”定位符规定匹配模式必须出现在目标对象的结尾,_定位符规定匹配模式必须出现在目标字符串的开头或结尾的两个边界之一,而“B”定位符则规定匹配对象必须位于目标字符串的开头和结尾两个边界之内,即匹配对象既不能作为目标字符串的开头,也不能作为目标字符串的结尾。
同样,我们也可以把“^”和“$”以及“_”和“B”看作是互为逆运算的两组定位符。
举例来说:
/^hell/
因为上述正则表达式中包含“^”定位符,所以可以与目标对象中以“hell”,“hello”或“hellhound”开头的字符串相匹配。
/ar$/
因为上述正则表达式中包含“$”定位符,所以可以与目标对象中以“car”,“bar”或“ar”结尾的字符串相匹配。
/_bom/
因为上述正则表达式模式以“_”定位符开头,所以可以与目标对象中以“bomb”,或“bom”开头的字符串相匹配。
/man_/
因为上述正则表达式模式以“_”定位符结尾,所以可以与目标对象中以“human”,“woman”或“man”结尾的字符串相匹配。
为了能够方便用户更加灵活的设定匹配模式,正则表达式允许使用者在匹配模式中指定某一个范围而不局限于具体的字符。
例如:
/[A-Z]/
上述正则表达式将会与从A到Z范围内任何一个大写字母相匹配。
/[a-z]/
上述正则表达式将会与从a到z范围内任何一个小写字母相匹配。
/[0-9]/
上述正则表达式将会与从0到9范围内任何一个数字相匹配。
/([a-z][A-Z][0-9])+/
上述正则表达式将会与任何由字母和数字组成的字符串,如“aB0”等相匹配。
这里需要提醒用户注意的一点就是可以在正则表达式中使用“()”把字符串组合在一起。
“()”符号包含的内容必须同时出现在目标对象中。
因此,上述正则表达式将无法与诸如“abc”等的字符串匹配,因为“abc”中的最后一个字符为字母而非数字。
如果我们希望在正则表达式中实现类似编程逻辑中的“或”运算,在多个不同的模式中任选一个进行匹配的话,可以使用管道符“|”。
例如:
使用实例
在对正则表达式有了较为全面的了解之后,我们就来看一下如何在Perl,PHP,以及JavaScript中使用正则表达式。
通常,Perl中正则表达式的使用格式如下:
operator/regular-expression/string-to-replace/modifiers
运算符一项可以是m或s,分别代表匹配运算和替换运算。
其中,正则表达式一项是将要进行匹配或替换操作的模式,可以由任意字符,元字符,或定位符等组成。
替换字符串一项是使用s运算符时,对查找到的模式匹配对象进行替换的字符串。
最后的参数项用来控制不同的匹配或替换方式。
例如:
s/geed/good/
将会在目标对象中查找第一个出现的geed字串,并将其替换为good。
如果我们希望在目标对象的全局范围内执行多次查找—替换操作的话,可以使用参数“g”,即s/love/lust/g。
此外,如果我们不需要限制匹配的大小写形式的话,可以使用参数“i”。
例如,
m/JewEL/i
上述正则表达式将会与目标对象中的jewel,Jewel,或JEWEL相匹配。
在Perl中,使用专门的运算符“=~”指定正则表达式的匹配对象。
例如:
$flag=~s/abc/ABC/
上述正则表达式将会把变量$flag中的字串abc替换为ABC。
下面,我们就在Perl程序中加入正则表达式,验证用户邮件地址格式的有效性。
代码如下:
#!
/usr/bin/perl
#getinput
print“What'syouremailaddress?
”;
$email=<>
chomp($email);
#matchanddisplayresult
if($email=~/^([a-zA-Z0-9_-])+@([a-zA-Z0-9_-])+(.[a-zA-Z0-9_-])+/)
{
print(“Youremailaddressiscorrect!
”);
}
else
{
print(“Pleasetryagain!
”);
}
/to|too|2/
上述正则表达式将会与目标对象中的“to”,“too”,或“2”相匹配。
正则表达式中还有一个较为常用的运算符,即否定符“[^]”。
与我们前文所介绍的定位符“^”不同,否定符“[^]”规定目标对象中不能存在模式中所规定的字符串。
例如:
/[^A-C]/
上述字符串将会与目标对象中除A,B,和C之外的任何字符相匹配。
一般来说,当“^”出现在“[]”内时就被视做否定运算符;而当“^”位于“[]”之外,或没有“[]”时,则应当被视做定位符。
最后,当用户需要在正则表达式的模式中加入元字符,并查找其匹配对象时,可以使用转义符“”。
例如:
/Th*/
上述正则表达式将会与目标对象中的“Th*”而非“The”等相匹配。
如果用户更偏爱PHP的话,可以使用ereg()函数进行模式匹配操作。
ereg()函数的使用格式如下:
ereg(pattern,string)
其中,pattern代表正则表达式的模式,而string则是执行查找替换操作的目标对象。
同样是验证邮件地址,使用PHP编写的程序代码如下:
php
if(ereg(“^([a-zA-Z0-9_-])+@([a-zA-Z0-9_-])+(.[a-zA-Z0-9_-])+”,$email))
{echo“Youremailaddressiscorrect!
”;}
else
{echo“Pleasetryagain!
”;}
?
>
最后,我们在来看一下JavaScript。
JavaScript1.2中带有一个功能强大的RegExp()对象,可以用来进行正则表达式的匹配操作。
其中的test()方法可以检验目标对象中是否包含匹配模式,并相应的返回true或false。
我们可以使用JavaScript编写以下脚本,验证用户输入的邮件地址的有效性。
--starthiding
functionverifyAddress(obj)
{
varemail=obj.email.value;
varpattern=/^([a-zA-Z0-9_-])+@([a-zA-Z0-9_-])+(.[a-zA-Z0-9_-])+/;
flag=pattern.test(email);
if(flag)
{
alert(“Youremailaddressiscorrect!
”);
returntrue;
}
else
{
alert(“Pleasetryagain!
”);
returnfalse;
}
}
//stophiding-->
Java正则表达式详解
如果你曾经用过Perl或任何其他内建正则表达式支持的语言,你一定知道用正则表达式处理文本和匹配模式是多么简单。
如果你不熟悉这个术语,那么“正则表达式”(RegularExpression)就是一个字符构成的串,它定义了一个用来搜索匹配字符串的模式。
许多语言,包括Perl、PHP、Python、JavaScript和JScript,都支持用正则表达式处理文本,一些文本编辑器用正则表达式实现高级“搜索-替换”功能。
那么Java又怎样呢?
本文写作时,一个包含了用正则表达式进行文本处理的Java规范需求(SpecificationRequest)已经得到认可,你可以期待在JDK的下一版本中看到它。
然而,如果现在就需要使用正则表达式,又该怎么办呢?
你可以从Apache.org下载源代码开放的Jakarta-ORO库。
本文接下来的内容先简要地介绍正则表达式的入门知识,然后以Jakarta-OROAPI为例介绍如何使用正则表达式。
一、正则表达式基础知识
我们先从简单的开始。
假设你要搜索一个包含字符“cat”的字符串,搜索用的正则表达式就是“cat”。
如果搜索对大小写不敏感,单词“catalog”、“Catherine”、“sophisticated”都可以匹配。
也就是说:
1.1句点符号
假设你在玩英文拼字游戏,想要找出三个字母的单词,而且这些单词必须以“t”字母开头,以“n”字母结束。
另外,假设有一本英文字典,你可以用正则表达式搜索它的全部内容。
要构造出这个正则表达式,你可以使用一个通配符——句点符号“.”。
这样,完整的表达式就是“t.n”,它匹配“tan”、“ten”、“tin”和“ton”,还匹配“t#n”、“tpn”甚至“tn”,还有其他许多无意义的组合。
这是因为句点符号匹配所有字符,包括空格、Tab字符甚至换行符:
1.2方括号符号
为了解决句点符号匹配范围过于广泛这一问题,你可以在方括号(“[]”)里面指定看来有意义的字符。
此时,只有方括号里面指定的字符才参与匹配。
也就是说,正则表达式“t[aeio]n”只匹配“tan”、“Ten”、“tin”和“ton”。
但“Toon”不匹配,因为在方括号之内你只能匹配单个字符:
1.3“或”符号
如果除了上面匹配的所有单词之外,你还想要匹配“toon”,那么,你可以使用“|”操作符。
“|”操作符的基本意义就是“或”运算。
要匹配“toon”,使用“t(a|e|i|o|oo)n”正则表达式。
这里不能使用方扩号,因为方括号只允许匹配单个字符;这里必须使用圆括号“()”。
圆括号还可以用来分组,具体请参见后面介绍。
1.4表示匹配次数的符号
表一显示了表示匹配次数的符号,这些符号用来确定紧靠该符号左边的符号出现的次数:
假设我们要在文本文件中搜索美国的社会安全号码。
这个号码的格式是999-99-9999。
用来匹配它的正则表达式如图一所示。
在正则表达式中,连字符(“-”)有着特殊的意义,它表示一个范围,比如从0到9。
因此,匹配社会安全号码中的连字符号时,它的前面要加上一个转义字符“\”。
图一:
匹配所有123-12-1234形式的社会安全号码
假设进行搜索的时候,你希望连字符号可以出现,也可以不出现——即,999-99-9999和999999999都属于正确的格式。
这时,你可以在连字符号后面加上“?
”数量限定符号,如图二所示:
图二:
匹配所有123-12-1234和123121234形式的社会安全号码
下面我们再来看另外一个例子。
美国汽车牌照的一种格式是四个数字加上二个字母。
它的正则表达式前面是数字部分“[0-9]{4}”,再加上字母部分“[A-Z]{2}”。
图三显示了完整的正则表达式。
图三:
匹配典型的美国汽车牌照号码,如8836KV
1.5“否”符号
“^”符号称为“否”符号。
如果用在方括号内,“^”表示不想要匹配的字符。
例如,图四的正则表达式匹配所有单词,但以“X”字母开头的单词除外。
图四:
匹配所有单词,但“X”开头的除外
1.6圆括号和空白符号
假设要从格式为“June26,1951”的生日日期中提取出月份部分,用来匹配该日期的正则表达式可以如图五所示:
图五:
匹配所有MothDD,YYYY格式的日期
新出现的“\s”符号是空白符号,匹配所有的空白字符,包括Tab字符。
如果字符串正确匹配,接下来如何提取出月份部分呢?
只需在月份周围加上一个圆括号创建一个组,然后用OROAPI(本文后面详细讨论)提取出它的值。
修改后的正则表达式如图六所示:
图六:
匹配所有MonthDD,YYYY格式的日期,定义月份值为第一个组
1.7其它符号
为简便起见,你可以使用一些为常见正则表达式创建的快捷符号。
如表二所示:
表二:
常用符号
例如,在前面社会安全号码的例子中,所有出现“[0-9]”的地方我们都可以使用“\d”。
修改后的正则表达式如图七所示:
图七:
匹配所有123-12-1234格式的社会安全号码
二、Jakarta-ORO库
有许多源代码开放的正则表达式库可供Java程序员使用,而且它们中的许多支持Perl5兼容的正则表达式语法。
我在这里选用的是Jakarta-ORO正则表达式库,它是最全面的正则表达式API之一,而且它与Perl5正则表达式完全兼容。
另外,它也是优化得最好的API之一。
Jakarta-ORO库以前叫做OROMatcher,DanielSavarese大方地把它赠送给了JakartaProject。
你可以按照本文最后参考资源的说明下载它。
我首先将简要介绍使用Jakarta-ORO库时你必须创建和访问的对象,然后介绍如何使用Jakarta-OROAPI。
▲PatternCompiler对象
首先,创建一个Perl5Compiler类的实例,并把它赋值给PatternCompiler接口对象。
Perl5Compiler是PatternCompiler接口的一个实现,允许你把正则表达式编译成用来匹配的Pattern对象。
▲Pattern对象
要把正则表达式编译成Pattern对象,调用compiler对象的compile()方法,并在调用参数中指定正则表达式。
例如,你可以按照下面这种方式编译正则表达式“t[aeio]n”:
默认情况下,编译器创建一个大小写敏感的模式(pattern)。
因此,上面代码编译得到的模式只匹配“tin”、“tan”、“ten”和“ton”,但不匹配“Tin”和“taN”。
要创建一个大小写不敏感的模式,你应该在调用编译器的时候指定一个额外的参数:
创建好Pattern对象之后,你就可以通过PatternMatcher类用该Pattern对象进行模式匹配。
▲PatternMatcher对象
PatternMatcher对象根据Pattern对象和字符串进行匹配检查。
你要实例化一个Perl5Matcher类并把结果赋值给PatternMatcher接口。
Perl5Matcher类是PatternMatcher接口的一个实现,它根据Perl5正则表达式语法进行模式匹配:
使用PatternMatcher对象,你可以用多个方法进行匹配操作,这些方法的第一个参数都是需要根据正则表达式进行匹配的字符串:
·booleanmatches(Stringinput,Patternpattern):
当输入字符串和正则表达式要精确匹配时使用。
换句话说,正则表达式必须完整地描述输入字符串。
·booleanmatchesPrefix(Stringinput,Patternpattern):
当正则表达式匹配输入字符串起始部分时使用。
·booleancontains(Stringinput,Patternpattern):
当正则表达式要匹配输入字符串的一部分时使用(即,它必须是一个子串)。
另外,在上面三个方法调用中,你还可以用PatternMatcherInput对象作为参数替代String对象;这时,你可以从字符串中最后一次匹配的位置开始继续进行匹配。
当字符串可能有多个子串匹配给定的正则表达式时,用PatternMatcherInput对象作为参数就很有用了。
用PatternMatcherInput对象作为参数替代String时,上述三个方法的语法如下:
·booleanmatches(PatternMatcherInputinput,Patternpattern)
·booleanmatchesPrefix(PatternMatcherInputinput,Patternpattern)
·booleancontains(PatternMatcherInputinput,Patternpattern)
三、应用实例
下面我们来看看Jakarta-ORO库的一些应用实例。
3.1日志文件处理
任务:
分析一个Web服务器日志文件,确定每一个用户花在网站上的时间。
在典型的BEAWebLogic日志文件中,日志记录的格式如下:
分析这个日志记录,可以发现,要从这个日志文件提取的内容有两项:
IP地址和页面访问时间。
你可以用分组符号(圆括号)从日志记录提取出IP地址和时间标记。
首先我们来看看IP地址。
IP地址有4个字节构成,每一个字节的值在0到255之间,各个字节通过一个句点分隔。
因此,IP地址中的每一个字节有至少一个、最多三个数字。
图八显示了为IP地址编写的正则表达式:
图八:
匹配IP地址
IP地址中的句点字符必须进行转义处理(前面加上“\”),因为IP地址中的句点具有它本来的含义,而不是采用正则表达式语法中的特殊含义。
句点在正则表达式中的特殊含义本文前面已经介绍。
日志记录的时间部分由一对方括号包围。
你可以按照如下思路提取出方括号里面的所有内容:
首先搜索起始方括号字符(“[”),提取出所有不超过结束方括号字符(“]”)的内容,向前寻找直至找到结束方括号字符。
图九显示了这部分的正则表达式。
图九:
匹配至少一个字符,直至找到“]”
现在,把上述两个正则表达式加上分组符号(圆括号)后合并成单个表达式,这样就可以从日志记录提取出IP地址和时间。
注意,为了匹配“--”(但不提取它),正则表达式中间加入了“\s-\s-\s”。
完整的正则表达式如图十所示。
图十:
匹配IP地址和时间标记
现在正则表达式已经编写完毕,接下来可以编写使用正则表达式库的Java代码了。
为使用Jakarta-ORO库,首先创建正则表达式字符串和待分析的日志记录字