详细JAVA正则表达式语法.docx-资源下载

详细JAVA正则表达式语法.docx

1、详细JAVA正则表达式语法Java 正则表达式表达式意义：+=+=+=+=+=+=+=+=+1.字符x 字符 x。例如a表示字符a 反斜线字符。在书写时要写为。（注意：因为java在第一次解析时,把解析成正则表达式，在第二次解析时再解析为，所以凡是不是1.1列举到的转义字符，包括1.1的,而又带有的都要写两次）0n 带有八进制值 0的字符 n (0 = n = 7)0nn 带有八进制值 0的字符 nn (0 = n = 7)0mnn 带有八进制值 0的字符 mnn（0 = m = 3、0 = n = 7）xhh 带有十六进制值 0x的字符 hhuhhhh 带有十六进制值 0x的字符 hhhht

2、制表符 (u0009)n 新行（换行）符 (u000A)r 回车符 (u000D)f 换页符 (u000C)a 报警 (bell) 符 (u0007)e 转义符 (u001B)cx 对应于 x 的控制符2.字符类abc a、b或 c（简单类）。例如egd表示包含有字符e、g或d。abc 任何字符，除了 a、b或 c（否定）。例如egd表示不包含字符e、g或d。a-zA-Z a到 z或 A到 Z，两头的字母包括在内（范围）a-dm-p a到 d或 m到 p：a-dm-p（并集）a-z&def d、e或 f（交集）a-z&bc a到 z，除了 b和 c：ad-z（减去）a-z&m-p a到 z，

3、而非 m到 p：a-lq-z（减去）3.预定义字符类(注意反斜杠要写两次，例如d写为d)任何字符（与行结束符可能匹配也可能不匹配）d 数字：0-9D 非数字： 0-9s 空白字符： tnx0BfrS 非空白字符：sw 单词字符：a-zA-Z_0-9W 非单词字符：w4.POSIX 字符类（仅 US-ASCII)(注意反斜杠要写两次，例如pLower写为pLower)pLower 小写字母字符：a-z。pUpper 大写字母字符：A-ZpASCII 所有 ASCII：x00-x7FpAlpha 字母字符：pLowerpUpperpDigit 十进制数字：0-9pAlnum 字母数字字符：pAlp

4、hapDigitpPunct 标点符号：!#$%&()*+,-./:;?_|pGraph 可见字符：pAlnumpPunctpPrint 可打印字符：pGraphx20pBlank 空格或制表符： tpCntrl 控制字符：x00-x1Fx7FpXDigit 十六进制数字：0-9a-fA-FpSpace 空白字符： tnx0Bfr5.java.lang.Character 类（简单的 java 字符类型）pjavaLowerCase 等效于 java.lang.Character.isLowerCase()pjavaUpperCase 等效于 java.lang.Character.isUpp

5、erCase()pjavaWhitespace 等效于 java.lang.Character.isWhitespace()pjavaMirrored 等效于 java.lang.Character.isMirrored()6.Unicode 块和类别的类pInGreek Greek 块（简单块）中的字符pLu 大写字母（简单类别）pSc 货币符号PInGreek 所有字符，Greek 块中的除外（否定）pL&pLu 所有字母，大写字母除外（减去）7.边界匹配器行的开头，请在正则表达式的开始处使用。例如：(abc)表示以abc开头的字符串。注意编译的时候要设置参数MULTILINE，如 Pa

6、ttern p = Ppile(regex,Pattern.MULTILINE);$ 行的结尾，请在正则表达式的结束处使用。例如：(bca).*(abc$)表示以bca开头以abc结尾的行。b 单词边界。例如b(abc)表示单词的开始或结束包含有abc,（abcjj、jjabc 都可以匹配）B 非单词边界。例如B(abc)表示单词的中间包含有abc,(jjabcjj匹配而jjabc、abcjj不匹配)A 输入的开头G 上一个匹配的结尾(个人感觉这个参数没什么用)。例如Gdog表示在上一个匹配结尾处查找dog如果没有的话则从开头查找,注意如果开头不是dog则不能匹配。Z 输入的结尾，仅用于最后的

7、结束符（如果有的话）行结束符是一个或两个字符的序列，标记输入字符序列的行结尾。以下代码被识别为行结束符：新行（换行）符 (n)、后面紧跟新行符的回车符 (rn)、单独的回车符 (r)、下一行字符 (u0085)、行分隔符 (u2028) 或段落分隔符 (u2029)。z 输入的结尾当编译模式时，可以设置一个或多个标志，例如Pattern pattern = Ppile(patternString,Pattern.CASE_INSENSITIVE + Pattern.UNICODE_CASE);下面六个标志都是支持的：CASE_INSENSITIVE：匹配字符时与大小写无关，该标志默认只考虑U

8、S ASCII字符。UNICODE_CASE：当与CASE_INSENSITIVE结合时，使用Unicode字母匹配MULTILINE：和$匹配一行的开始和结尾，而不是整个输入UNIX_LINES：当在多行模式下匹配和$时，只将n看作行终止符DOTALL: 当使用此标志时，.符号匹配包括行终止符在内的所有字符CANON_EQ: 考虑Unicode字符的规范等价8.Greedy 数量词X? X，一次或一次也没有X* X，零次或多次X+ X，一次或多次Xn X，恰好 n 次Xn, X，至少 n 次Xn,m X，至少 n 次，但是不超过 m 次9.Reluctant 数量词X? X，一次或一次也没

9、有X*? X，零次或多次X+? X，一次或多次Xn? X，恰好 n 次Xn,? X，至少 n 次Xn,m? X，至少 n 次，但是不超过 m 次10.Possessive 数量词X?+ X，一次或一次也没有X*+ X，零次或多次X+ X，一次或多次Xn+ X，恰好 n 次Xn,+ X，至少 n 次Xn,m+ X，至少 n 次，但是不超过 m 次Greedy，Reluctant，Possessive的区别在于:(注意仅限于进行.等模糊处理时)greedy量词被看作“贪婪的”，因为它第一次就读入整个被模糊匹配的字符串。如果第一个匹配尝试（整个输入字符串）失败，匹配器就会在被匹配字符串中的最后一位

10、后退一个字符并且再次尝试，重复这个过程，直到找到匹配或者没有更多剩下的字符可以后退为止。根据表达式中使用的量词，它最后试图匹配的内容是1 个或者0个字符。但是，reluctant量词采取相反的方式：它们从被匹配字符串的开头开始，然后逐步地一次读取一个字符搜索匹配。它们最后试图匹配的内容是整个输入字符串。最后，possessive量词总是读完整个输入字符串，尝试一次（而且只有一次）匹配。和greedy量词不同，possessive从不后退。+=+=+=+=+=+=+=+=+11.Logical 运算符XY X 后跟 YX|Y X 或 Y(X) X，作为捕获组。例如(abc)表示把abc作为一个

11、整体进行捕获12.Back 引用n 任何匹配的 nth捕获组捕获组可以通过从左到右计算其开括号来编号。例如，在表达式 (A)(B(C)中，存在四个这样的组：1 (A)(B(C)2 A3 (B(C)4 (C)在表达式中可以通过n来对相应的组进行引用，例如(ab)341就表示ab34ab，(ab)34(cd)12就表示ab34cdabcd。13.引用 Nothing，但是引用以下字符Q Nothing，但是引用所有字符，直到 E。QE之间的字符串会原封不动的使用(1.1中转义字符的除外)。例如, abQ|E可以匹配ab|E Nothing，但是结束从 Q开始的引用14.特殊构造（非捕获）(?:X)

12、 X，作为非捕获组(?idmsux-idmsux) Nothing，但是将匹配标志由 on 转为 off。比如：表达式 (?i)abc(?-i)def 这时，(?i) 打开不区分大小写开关，abc 匹配idmsux说明如下：i CASE_INSENSITIVE :US-ASCII 字符集不区分大小写。(?i)d UNIX_LINES : 打开UNIX换行符m MULTILINE :多行模式(?m)UNIX下换行为nWINDOWS下换行为rn(?s)u UNICODE_CASE : Unicode 不区分大小写。(?u)x COMMENTS :可以在pattern里面使用注解，忽略pattern

13、里面的whitespace，以及#一直到结尾（#后面为注解）。(?x)例如(?x)abc#asfsdadsa可以匹配字符串abc(?idmsux-idmsux:X) X，作为带有给定标志 on - off 的非捕获组。与上面的类似，上面的表达式，可以改写成为：(?i:abc)def，或者 (?i)abc(?-i:def)(?=X) X，通过零宽度的正 lookahead。零宽度正先行断言，仅当子表达式 X 在此位置的右侧匹配时才继续匹配。例如，w+(?=d) 表示字母后面跟数字，但不捕获数字（不回溯）(?!X) X，通过零宽度的负 lookahead。零宽度负先行断言。仅当子表达式 X 不在

14、此位置的右侧匹配时才继续匹配。例如，w+(?!d) 表示字母后面不跟数字，且不捕获数字。(?=X) X，通过零宽度的正 lookbehind。零宽度正后发断言。仅当子表达式 X 在此位置的左侧匹配时才继续匹配。例如，(?X) X，作为独立的非捕获组（不回溯）(?=X)与(?X)的区别在于(?X)是不回溯的。例如被匹配的字符串为abcm当表达式为a(?:b|bc)m是可以匹配的，而当表达式是a(?b|bc)时是不能匹配的，因为当后者匹配到b时，由于已经匹配，就跳出了非捕获组，而不再次对组内的字符进行匹配。可以加快速度。注意：有评论说最后一句说的有问题“这里有问题！abcm也可被a(?b|bc

15、)匹配！”+=+=+=+=+=+=+=+=+引言正则表达式（regular expression）就是用一个“字符串”来描述一个特征，然后去验证另一个“字符串”是否符合这个特征。比如表达式“ab+” 描述的特征是“一个 a 和任意个 b ”，那么 ab, abb, abbbbbbbbbb 都符合这个特征。正则表达式可以用来：（1）验证字符串是否符合指定特征，比如验证是否是合法的邮件地址。（2）用来查找字符串，从一个长的文本中查找符合指定特征的字符串，比查找固定字符串更加灵活方便。（3）用来替换，比普通的替换更强大。正则表达式学习起来其实是很简单的，不多的几个较为抽象的概念也很容易理解

16、。之所以很多人感觉正则表达式比较复杂，一方面是因为大多数的文档没有做到由浅入深地讲解，概念上没有注意先后顺序，给读者的理解带来困难；另一方面，各种引擎自带的文档一般都要介绍它特有的功能，然而这部分特有的功能并不是我们首先要理解的。+=+=+=+=+=+=+=+=+ 文章中的每一个举例，都可以点击进入到测试页面进行测试。闲话少说，开始。1. 正则表达式规则1.1 普通字符字母、数字、汉字、下划线、以及后边章节中没有特殊定义的标点符号，都是普通字符。表达式中的普通字符，在匹配一个字符串的时候，匹配与之相同的一个字符。举例1：表达式 c，在匹配字符串 abcde 时，匹配结果是：成功；匹配到的

17、内容是：c；匹配到的位置是：开始于2，结束于3。（注：下标从0开始还是从1开始，因当前编程语言的不同而可能不同）举例2：表达式 bcd，在匹配字符串 abcde 时，匹配结果是：成功；匹配到的内容是：bcd；匹配到的位置是：开始于1，结束于4。1.2 简单的转义字符一些不便书写的字符，采用在前面加的方法。这些字符其实我们都已经熟知了。表达式可匹配r, n代表回车和换行符t制表符代表本身还有其他一些在后边章节中有特殊用处的标点符号，在前面加后，就代表该符号本身。比如：, $ 都有特殊意义，如果要想匹配字符串中和 $ 字符，则表达式就需要写成和 $。表达式可匹配匹配符号本身$匹配

18、$ 符号本身.匹配小数点（.）本身这些转义字符的匹配方法与普通字符是类似的。也是匹配与之相同的一个字符。举例1：表达式 $d，在匹配字符串 abc$de 时，匹配结果是：成功；匹配到的内容是：$d；匹配到的位置是：开始于3，结束于5。1.3 能够与多种字符匹配的表达式正则表达式中的一些表示方法，可以匹配多种字符其中的任意一个字符。比如，表达式 d 可以匹配任意一个数字。虽然可以匹配其中任意字符，但是只能是一个，不是多个。这就好比玩扑克牌时候，大小王可以代替任意一张牌，但是只能代替一张牌。表达式可匹配d任意一个数字，09 中的任意一个w任意一个字母或数字或下划线，也就是 AZ,a

19、z,09,_ 中任意一个s包括空格、制表符、换页符等空白字符的其中任意一个.小数点可以匹配除了换行符（n）以外的任意一个字符举例1：表达式 dd，在匹配 abc123 时，匹配的结果是：成功；匹配到的内容是：12；匹配到的位置是：开始于3，结束于5。举例2：表达式 a.d，在匹配 aaa100 时，匹配的结果是：成功；匹配到的内容是：aa1；匹配到的位置是：开始于1，结束于4。+=+=+=+=+=+=+=+=+1.4 自定义能够匹配多种字符的表达式使用方括号包含一系列字符，能够匹配其中任意一个字符。用包含一系列字符，则能够匹配其中字符之外的任意一个字符。同样的道理，虽然可以匹配其中任

20、意一个，但是只能是一个，不是多个。表达式可匹配ab5匹配 a 或 b 或 5 或 abc匹配 a,b,c 之外的任意一个字符f-k匹配 fk 之间的任意一个字母A-F0-3匹配 AF,03 之外的任意一个字符举例1：表达式 bcdbcd 匹配 abc123 时，匹配的结果是：成功；匹配到的内容是：bc；匹配到的位置是：开始于1，结束于3。举例2：表达式 abc 匹配 abc123 时，匹配的结果是：成功；匹配到的内容是：1；匹配到的位置是：开始于3，结束于4。+=+=+=+=+=+=+=+=+1.5 修饰匹配次数的特殊符号前面章节中讲到的表达式，无论是只能匹配一种字符的表达式，还是可以匹配多

21、种字符其中任意一个的表达式，都只能匹配一次。如果使用表达式再加上修饰匹配次数的特殊符号，那么不用重复书写表达式就可以重复匹配。使用方法是：次数修饰放在被修饰的表达式后边。比如：bcdbcd 可以写成 bcd2。表达式作用n表达式重复n次，比如：w2 相当于 ww；a5 相当于 aaaaam,n表达式至少重复m次，最多重复n次，比如：ba1,3可以匹配 ba或baa或baaam,表达式至少重复m次，比如：wd2,可以匹配 a12,_456,M12344.?匹配表达式0次或者1次，相当于 0,1，比如：acd?可以匹配 a,ac,ad+表达式至少出现1次，相当于 1,，比如：a+b可以匹配 ab

22、,aab,aaab.*表达式不出现或出现任意次，相当于 0,，比如：*b可以匹配 b,b.举例1：表达式 d+.?d* 在匹配 It costs $12.5 时，匹配的结果是：成功；匹配到的内容是：12.5；匹配到的位置是：开始于10，结束于14。举例2：表达式 go2,8gle 在匹配 Ads by goooooogle 时，匹配的结果是：成功；匹配到的内容是：goooooogle；匹配到的位置是：开始于7，结束于17。+=+=+=+=+=+=+=+=+1.6 其他一些代表抽象意义的特殊符号一些符号在表达式中代表抽象的特殊意义：表达式作用与字符串开始的地方匹配，不匹配任何字符$与字符串结束

23、的地方匹配，不匹配任何字符b匹配一个单词边界，也就是单词和空格之间的位置，不匹配任何字符进一步的文字说明仍然比较抽象，因此，举例帮助大家理解。举例1：表达式 aaa 在匹配 xxx aaa xxx 时，匹配结果是：失败。因为要求与字符串开始的地方匹配，因此，只有当 aaa 位于字符串的开头的时候，aaa 才能匹配，比如：aaa xxx xxx。举例2：表达式 aaa$ 在匹配 xxx aaa xxx 时，匹配结果是：失败。因为 $ 要求与字符串结束的地方匹配，因此，只有当 aaa 位于字符串的结尾的时候，aaa$ 才能匹配，比如：xxx xxx aaa。举例3：表达式 .b. 在匹配 ab

24、c 时，匹配结果是：成功；匹配到的内容是：a；匹配到的位置是：开始于2，结束于4。进一步说明：b 与和 $ 类似，本身不匹配任何字符，但是它要求它在匹配结果中所处位置的左右两边，其中一边是 w 范围，另一边是非w 的范围。举例4：表达式 bendb 在匹配 weekend,endfor,end 时，匹配结果是：成功；匹配到的内容是：end；匹配到的位置是：开始于15，结束于18。一些符号可以影响表达式内部的子表达式之间的关系：表达式作用|左右两边表达式之间或关系，匹配左边或者右边( )(1). 在被修饰匹配次数的时候，括号中的表达式可以作为整体被修饰(2). 取匹配结果的时候，括号

25、中的表达式匹配到的内容可以被单独得到举例5：表达式 Tom|Jack 在匹配字符串 Im Tom, he is Jack 时，匹配结果是：成功；匹配到的内容是：Tom；匹配到的位置是：开始于4，结束于7。匹配下一个时，匹配结果是：成功；匹配到的内容是：Jack；匹配到的位置时：开始于15，结束于19。举例6：表达式 (gos*)+ 在匹配 Lets go go go! 时，匹配结果是：成功；匹配到内容是：go go go；匹配到的位置是：开始于6，结束于14。举例7：表达式￥(d+.?d*) 在匹配 10.9,￥20.5 时，匹配的结果是：成功；匹配到的内容是：￥20.5；匹配到的位置是：开

26、始于6，结束于10。单独获取括号范围匹配到的内容是：20.5。+=+=+=+=+=+=+=+=+2. 正则表达式中的一些高级规则2.1 匹配次数中的贪婪与非贪婪在使用修饰匹配次数的特殊符号时，有几种表示方法可以使同一个表达式能够匹配不同的次数，比如：m,n, m, ?, *, +，具体匹配的次数随被匹配的字符串而定。这种重复匹配不定次数的表达式在匹配过程中，总是尽可能多的匹配。比如，针对文本 dxxxdxxxd，举例如下：表达式匹配结果(d)(w+)w+ 将匹配第一个 d 之后的所有字符 xxxdxxxd(d)(w+)(d)w+ 将匹配第一个 d 和最后一个 d 之间的所有字符 xxxdxxx。虽然 w+

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？