程序员必须掌握的正则表达式 1.docx

资源描述

程序员必须掌握的正则表达式 1.docx

《程序员必须掌握的正则表达式 1.docx》由会员分享，可在线阅读，更多相关《程序员必须掌握的正则表达式 1.docx（24页珍藏版）》请在冰豆网上搜索。

程序员必须掌握的正则表达式 1.docx

程序员必须掌握的正则表达式1

程序员必须掌握的正则表达式

概述

正则表达式，可以说是任何一种编程语言都提供的机制，它主要是提供了对字符串的处理能力。

正则表达式在页面处理中的使用场景：

1）表单验证。

验证某些域符合某种规则，例如邮件输入框必须输入的是邮件、联系电话输入框输入的必须是数字等等

2）处理DOM模型。

例如通过表达式定位DOM中的一个对象或一系列对象，一个例子就是定位id属性中含有某个特殊字符的div对象。

3）纯编程逻辑。

直接用于编程的逻辑之中。

说明：

本部分所举的正则表达式的代码片断，都是经过测试的，但有一点需要注意，对于换行的字符串的定义，我们在表述时使用的是类似如下的形式：

varstr=“It’sis

a beautifulcity”；

这种形式直接写在JS代码中是错误的，那如何获取具有换行的字符串呢？

简单的办法：

在textarea中输入文本并换行，然后将该值赋给JS变量即可。

例如：

varstr=document.forms[0].mytextarea.value;

二，语法与使用

1，定义正则表达式

1）定义正则表达式有两种形式，一种是普通方式，一种是构造函数方式。

2）普通方式：

varreg=/表达式/附加参数

表达式：

一个字符串，代表了某种规则，其中可以使用某些特殊字符，来代表特殊的规则，后面会详细说明。

附加参数：

用来扩展表达式的含义，目前主要有三个参数：

g：

代表可以进行全局匹配。

i：

代表不区分大小写匹配。

m：

代表可以进行多行匹配。

上面三个参数，可以任意组合，代表复合含义，当然也可以不加参数。

例子：

varreg=/a*b/;

varreg=/abc+f/g;

3）构造函数方式：

var reg=new RegExp（“表达式”,”附加参数”）;

其中“表达式”与“附加参数”的含义与上面那种定义方式中的含义相同。

例子：

varreg=newRegExp（“a*b”）;

varreg=newRegExp（“abc+f”,”g”）;

4）普通方式与构造函数方式的区别

普通方式中的表达式必须是一个常量字符串，而构造函数中的表达式可以是常量字符串，也可以是一个js变量，例如根据用户的输入来作为表达式参数等等：

varreg=newRegExp（document.forms[0].exprfiled.value,”g”）;

2，表达式模式

1）表达式模式，是指表达式的表达方式与样式，即varreg=/表达式/附加参数中的“表达式”怎样去描述？

2）从规范上讲，表达式模式分为简单模式和复合模式。

3）简单模式：

是指通过普通字符的组合来表达的模式，例如

varreg=/abc0d/;

可见简单模式只能表示具体的匹配。

4）复合模式：

是指含有通配符来表达的模式，例如：

varreg=/a+b?

/w/;

其中的+、?

和/w都属于通配符，代表着特殊的含义。

因此复合模式可以表达更为抽象化的逻辑。

下面我们着重说一下复合模式中各个通配符的含义及其使用。

5）复合模式中特殊字符的讲解：

1>/：

在许多编程语言里面被用作转义符，一般来说

/符号后面如果跟的是普通字符c，那么/c就代表特殊的含义，例如n本来代表字符n，但/n就代表换行。

/符号后面如果跟的是特殊字符c，那么/c就代表普通字符c，例如/一般用作转义符，但//则调表普通字符/。

Javascript的正则表达式中/的用法与上面相同，只是不同的编程语言，特殊字符表可能不太一样罢了。

2>^：

匹配输入字符串的起始端，如果是多行匹配，即表达式的附加参数中含有m，则也在一个换行符后匹配。

例子：

/^B/匹配“BabBc”中的第一个B

例子2：

/^B/gm匹配

“BaddB

cdaf

BdsfB”

中的第一行第一个B，第三行中的第一个B

3>$：

匹配输入字符创的尾端，如果是多行匹配，即表达式的附加参数中含有m，则也在一个换行符前匹配。

与^的用法相反。

例子：

/t$/匹配“bat”中的t，但是不匹配“hate”中的t

例子2：

/t$/匹配

“tagat

bat”

中第一行的最后一个t和第二行的t。

4>*：

匹配前一个字符0次或多次。

例子：

/ab*/匹配“dddabbbbc”中的“abbbb”，也匹配“ddda”中的“a”

5>+：

匹配前一个字符1次或多次。

例子：

/ab+/匹配“dddabbbbc”中的“abbbb”，但不匹配“ddda”

与后面的{1,}（原型：

{n,}）的用法类似

6>?

：

的用法比较特殊，一般来说它用来对前一个字符做0次或1次匹配，但是它有另外两种特殊的用法：

如果紧跟在*、+、?

和{}之后，则表示原始匹配的最小次数匹配，例如：

/ba*/本来匹配“bbbaaaa”中的“baaaa”，但是/ba*?

/则匹配“bbbaaaa”中的“b”（因为*表示0次或多次匹配，而加?

应该表示最少次数匹配，即0次匹配）。

同理：

/ba+?

/则匹配“baaaa”中的“ba”。

作为语法结构符号，使用于前置断言中，即后面要说到的x（?

=y）和x（?

=y）

7>.：

小数点中的“.”号，匹配任何一个单独的字符，但是换行符除外。

标准中总共有哪些字符？

请参考：

字符集

例如：

/a.b/匹配“acbaa”中的“acb”，但是不匹配“abbb”。

8>（x）：

表示匹配x（并非特指字符x或者特指一个字符，x表示一个字符串），而且匹配会被记住，在语法中这种（）被称为“capturingparentheses”，即捕捉用的小括号。

匹配会被记住，是因为在表达式提供的函数中，有些函数返回一个数组，该数组会保存所匹配的所有字符串，例如exec（）函数。

另外还要注意（）中的x被记住的前提是匹配x。

例子1：

varregx=/a（b）c/;

varrs=regx.exec（“abcddd”）;

从上面可以看出,/a（b）c/匹配“abcddd”中的“abc”，因为（）的原因，b也会记录下来，因此rs返回的数字内容为：

{abc,b}

例子2：

varregx=/a（b）c/;

varrs=regx.exec（“acbcddd”）;

rs返回null，因为/a（b）c/不匹配“acbcddd”，所以（）中的b不会被记录下来（尽管字符串中含有b）

9>（?

x）：

匹配x，但不会记住x，这种格式中的（）被称为“non-capturingparentheses”，即非捕捉用的小括号。

例子：

varregx=/a（?

b）c/;

varrs=regx.exec（“abcddd”）;

从上面可以看出,/a（?

b）c/匹配“abcddd”中的“abc”，因为（?

）的原因，b不会记录下来，因此rs返回的数字内容为：

{abc}

10>X（?

=y）：

匹配x，仅当后面紧跟着y时。

如果符合匹配，则只有x会被记住，y不会被记住。

例子：

varregx=/user（?

=name）/;

varrs=regx.exec（“TheusernameisMary”）;

结果：

匹配成功，而且rs的值为{user}

11>X（?

y）：

匹配x，仅当后面不紧跟着y时。

如果符合匹配，则只有x会被记住，y不会被记住。

例子：

varregx=/user（?

name）/;

varrs=regx.exec（“TheusernameisMary”）;

结果：

匹配成功，而且rs的值为{user}

例子2：

varregx=//d+（?

/.）/;

varrs=regx.exec（“54.235”）;

结果：

匹配成果，rs的值为{5}，不匹配54是因为54后面跟着“.”号，当然235也匹配，但是由于exec方法的行为，235不会被返回

12>x|y：

匹配x或y。

注意如果x和y都匹配上了，那么只记住x。

例子：

varregx=/beijing|shanghai/;

varrs=regx.exec（“Ilovebeijingandshanghai”）;

结果：

匹配成功，rs的值为{beijing}，虽然shanghai也匹配，但不会被记住。

13>{n}：

匹配前一个字符的n次出现。

n必须是一个非负数，当然如果是一个负数或小数也不会报语法错误。

例子：

varregx=/ab{2}c/;

varrs=regx.exec（“abbcd”）;

结果：

匹配成功，rs的值为：

{abbc}。

14>{n,}：

匹配前一个字符的至少n次出现。

例子：

varregx=/ab{2,}c/;

varrs=regx.exec（“abbcdabbbc”）;

结果：

匹配成功，rs的值为：

{abbc}。

注意为什么abbbc也符合条件为什么没有被记住，这与exec方法的行为有关，后面会统一讲解。

15>{n,m}：

匹配前一个字符的至少n次最多m次的出现。

只要n与m为数字，而且m>=n就不会报语法错误。

例子：

varregx=/ab{2,5}c/;

varrs=regx.exec（“abbbcd”）;

结果：

匹配成功，rs的值为：

{abbbc}。

例子2：

varregx=/ab{2,2}c/;

varrs=regx.exec（“abbcd”）;

结果：

匹配成功，rs的值为：

{abbc}。

例子3：

varregx=/ab（2,5）/;

varrs=regx.exec（“abbbbbbbbbb”）;

结果：

匹配成功，rs的值为：

{abbbbb}，这说明，如果前一个字符出现多于m次，则只匹配m次。

另外：

varregx=/ab（2,5）c/;

varrs=regx.exec（“abbbbbbbbbbc”）;

结果：

匹配失败，rs的值为：

null，为什么匹配失败，因为b多于5个则b（2,5）会匹配前5个b，，而表达式/ab（2,5）c/中b后面是c，但字符串中5个b之后还是b所以会报错。

16>[xyz]：

xyz表示一个字符串，该模式表示匹配[]中的一个字符，形式上[xyz]等同于[x-z]。

例子：

varregx=/a[bc]d/;

varrs=regx.exec（“abddgg”）;

结果：

匹配成功，rs的值为：

{abd}

例子2：

varregx=/a[bc]d/;

varrs=regx.exec（“abcd”）;

结果：

匹配失败，rs的值为：

null，之所以失败，是因为[bc]表示匹配b或c中的一个，但不会同时匹配。

17>[^xyz]：

该模式表示匹配非[]中的一个字符，形式上[^xyz]等同于[^x-z]。

例子：

varregx=/a[^bc]d/;

varrs=regx.exec（“afddgg”）;

结果：

匹配成功，rs的值为：

{afd}

例子2：

varregx=/a[^bc]d/;

varrs=regx.exec（“abd”）;

结果：

匹配失败，rs的值为：

。

18>[/b]：

匹配退格键。

19>/b：

匹配一个词的边界符，例如空格和换行符等等，当然匹配换行符时，表达式应该附加参数m。

例子：

varregx=//bc./;

varrs=regx.exec（“Beijingisabeautifulcity”）;

结果：

匹配成功，rs的值为：

{ci}，注意c前边的空格不会匹配到结果中，即{ci}是不正确的。

20>/B：

代表一个非单词边界。

例子：

varregx=//Bi./;

varrs=regx.exec（“Beijingisabeautifulcity”）;

结果：

匹配成功，rs的值为：

{ij}，即匹配了Beijing中的ij。

21>/cX，匹配一个控制字符。

例如，/cM匹配一个Control-M或

回车符。

x的值必须为A-Z或a-z之一。

否则，将c视为一

个原义的’c’字符。

（实际的例子还需补充）

21>/d：

匹配一个数字字符，等同于[0-9]。

例子：

varregx=/user/d/;

varrs=regx.exec（“user1”）;

结果：

匹配成功，rs的值为：

{user1}

22>/D：

匹配一个非数字字符，等同于[^0-9]。

例子：

varregx=/user/D/;

varrs=regx.exec（“userA”）;

结果：

匹配成功，rs的值为：

{userA}

23>/f：

匹配一个换页符。

24>/n：

匹配一个换行符。

因为是换行符，所以在表达式中要加入m参数。

例子：

varregx=/a/nbc/m;

varstr=“a

bc”;

varrs=regx.exec（str）;

结果：

匹配成功，rs的值为：

{ }，如果表达式为/a/n/rbc/，则不会被匹配，因此在一般的编辑器中一个”Enter”键代表着“回车换行”，而非“换行回车”，至少在textarea域中是这样的。

25>/r：

匹配一个回车符

26>/s：

匹配一个空格符，等同于[/f/n/r/t/v/u00A0/u2028/u2029].

例子：

varregx=//si/;

varrs=regx.exec（“Beijingisacity”）;

结果：

匹配成功，rs的值为：

{i}

27>/S：

匹配一个非空格符，等同于[^/f/n/r/t/v/u00A0/u2028/u2029].

例子：

varregx=//Si/;

varrs=regx.exec（“Beijingisacity”）;

结果：

匹配成功，rs的值为：

{ei}

28>/t：

匹配一个tab

例子：

varregx=/a/tb/;

varrs=regx.exec（“abc”）;

结果：

匹配成功，rs的值为：

{a bc}

29>/v：

匹配一个竖向的tab

30>/w：

匹配一个数字、_或字母表字符，即[A-Za-z0-9_]。

例子：

varregx=//w/;

varrs=regx.exec（“$25.23”）;

结果：

匹配成功，rs的值为：

{2}

31>/W：

匹配一个非数字、_或字母表字符，即[^A-Za-z0-9_]。

例子：

varregx=//w/;

varrs=regx.exec（“$25.23”）;

结果：

匹配成功，rs的值为：

{$}

32>/n：

注意不是/n，这里n是一个正整数，表示匹配第n个（）中的字符。

例子：

varregx=/user（[,-]）group/1role/;

varrs=regx.exec（“user-group-role”）;

结果：

匹配成功，rs的值为：

{user-group-role,-}，同样对user,group,role的匹配也是成功的，但像user-group,role等就不对了。

33>/0：

匹配一个NUL字符。

34>/xhh：

匹配一个由两位16进制数字所表达的字符。

35>/uhhhh：

匹配一个由四位16进制数字所表达的字符。

3，表达式操作

1）表达式操作，在这里是指和表达式相关的方法，我们将介绍六个方法。

2）表达式对象（RegExp）方法：

1>exec（str），返回str中与表达式相匹配的第一个字符串，而且以数组的形式表现，当然如果表达式中含有捕捉用的小括号，则返回的数组中也可能含有（）中的匹配字符串，例如：

varregx=//d+/;

varrs=regx.exec（“3432ddf53”）;

返回的rs值为：

{3432}

varregx2=newRegExp（“ab（/d+）c”）;

varrs2=regx2.exec（“ab234c44”）;

返回的rs值为：

{ab234c,234}

另外，如果有多个合适的匹配，则第一次执行exec返回一个第一个匹配，此时继续执行exec，则依次返回第二个第三个匹配。

例如：

varregx=/user/d/g;

varrs=regx.exec（“ddduser1dsfuser2dd”）;

varrs1=regx.exec（“ddduser1dsfuser2dd”）;

则rs的值为{user1}，rs的值为{rs2}，当然注意regx中的g参数是必须的，否则无论exec执行多少次，都返回第一个匹配。

后面还有相关内容涉及到对此想象的解释。

2>test（str），判断字符串str是否匹配表达式，返回一个布尔值。

例如：

varregx=/user/d+/g;

varflag=regx.test（“user12dd”）;

flag的值为true。

3）String对象方法

1>match（expr），返回与expr相匹配的一个字符串数组，如果没有加参数g，则返回第一个匹配，加入参数g则返回所有的匹配

例子：

varregx=/user/d/g;

varstr=“user13userddduser345”;

varrs=str.match（regx）;

rs的值为：

{user1,user3}

2>search（expr），返回字符串中与expr相匹配的第一个匹配的index值。

例子：

varregx=/user/d/g;

varstr=“user13userddduser345”;

varrs=str.search（regx）;

rs的值为：

3>replace（expr,str），将字符串中匹配expr的部分替换为str。

另外在replace方法中，str中可以含有一种变量符号$，格式为$n，代表匹配中被记住的第n的匹配字符串（注意小括号可以记忆匹配）。

例子：

varregx=/user/d/g;

varstr=“user13userddduser345”;

varrs=str.replace（regx,”00”）;

rs的值为：

003userddd0045

例子2：

varregx=/u（se）r/d/g;

varstr=“user13userddduser345”;

varrs=str.replace（regx,”$1”）;

rs的值为：

se3userdddse45

对于replace（expr,str）方法还要特别注意一点，如果expr是一个表达式对象则会进行全局替换（此时表达式必须附加参数g，否则也只是替换第一个匹配），如果expr是一个字符串对象，则只会替换第一个匹配的部分，例如：

varregx=“user”

varstr=“user13userddduser345”;

varrs=str.replace（regx,”00”）;

rs的值为：

0013userddduser345

4>split（expr），将字符串以匹配expr的部分做分割，返回一个数组，而且表达式是否附加参数g都没有关系，结果是一样的。

例子：

varregx=/user/d/g;

varstr=“user13userddduser345”;

varrs=str.split（regx）;

rs的值为：

{3userddd,45}

4，表达式相关属性

1）表达式相关属性，是指和表达式相关的属性，如下面的形式：

varregx=/myexpr/;

varrs=regx.exec（str）;

其中，和表达式自身regx相关的属性有两个，和表达式匹配结果rs相关的属性有三个，下面将逐一介绍。

2）和表达式自身相关的两个属性：

1>lastIndex，返回开始下一个匹配的位置，注意必须是全局匹配（表达式中带有g参数）时，lastIndex才会有不断返回下一个匹配值，否则该值为总是返回第一个下一个匹配位置，例如：

varregx=/user/d/;

varrs=regx.exec（“sdsfuser1dfsfuser2”）;

varlastIndex1=regx.lastIndex;

rs=regx.exec（“sdsfuser1dfsfuser2”）;

varlastIndex2=regx.lastIndex;

rs=regx.exec（“sdsfuser1dfsfuser2”）;

varlastIndex3=regx.lastIndex;

上面lastIndex1为9，第二个lastIndex2也为9，第三个也是9；如果regx=/user/d/g，则第一个为9，第二个为18，第三个为0。

2>source，返回表达式字符串自身。

例如：

varregx=/user/d/;

varrs=regx.exec（“sdsfuser1dfsfuser2”）;

varsource=regx.source;

source的值为user/d

3）和匹配结果相关的三个属性：

1>index，返回当前匹配的位置。

例如：

varregx=/user/d/;

varrs=regx.exec（“sdsfuser1dfsfuser2”）;

varindex1=rs.index;

rs=regx.exec（“sdsfuser1dfsfuser2”）;

varindex2=rs.index;

rs=regx.exec（“sdsfuser1dfsfuser2”）;

varindex3=rs.index;

index1为4，index2为4，index3为4，如果表达式加入参数g，则index1为4，index2为13，index3会报错（index为空或不是对象）。

2>input，用于匹配的字符串。

例如：

varregx=/user/d/;

varrs=regx.exec（“sdsfuser1dfsfuser2”）;

varinput=rs.input;

input的值为sdsfuser1dfsfuser2。

3>[0]，返回匹配结果中的第一个匹配值，对于match而言可能返回一个多值的数字，则除了[0]外，还可以取[1]、[2]等等。

例如：

varregx=/user/d/;

varrs=regx.exec（“sdsfuser1dfsfuser2”）;

varvalue1=rs[0];

rs=regx.exec（“sdsfuser1dfsfuser2”）;

varvalue2=rs[0];

value1的值为user1,value2的值为user2

5，实际应用

1）实际应用一

描述：

有一表单，其中有一个“用户名”input域

要求：

汉字，而且不能少于2个汉字，不能多于4个汉字。

实现：