Java Regular Expressions SyntaxWord文档下载推荐.docx

资源描述

Java Regular Expressions SyntaxWord文档下载推荐.docx

《Java Regular Expressions SyntaxWord文档下载推荐.docx》由会员分享，可在线阅读，更多相关《Java Regular Expressions SyntaxWord文档下载推荐.docx（11页珍藏版）》请在冰豆网上搜索。

Java Regular Expressions SyntaxWord文档下载推荐.docx

带有十六进制值0x的字符hhhh

制表符（'

\u0009'

）

新行（换行）符（'

\u000A'

回车符（'

\u000D'

换页符（'

\u000C'

报警（bell）符（'

\u0007'

转义符（'

\u001B'

\cx

对应于x的控制符

1.2.字符类

[abc]

a、b或c（简单类）。

例如[egd]表示包含有字符e、g或d。

[^abc]

任何字符，除了a、b或c（否定）。

例如[^egd]表示不包含字符e、g或d。

[a-zA-Z]

a到z或A到Z，两头的字母包括在内（范围）

[a-d[m-p]]

a到d或m到p：

[a-dm-p]（并集）

[a-z&

[def]]

d、e或f（交集）

[^bc]]

a到z，除了b和c：

[ad-z]（减去）

[^m-p]]

a到z，而非m到p：

[a-lq-z]（减去）

1.3.预定义字符类（注意反斜杠要写两次，例如\d写为\\d）

任何字符（与行结束符可能匹配也可能不匹配）

数字：

[0-9]

非数字：

[^0-9]

空白字符：

[\t\n\x0B\f\r]

非空白字符：

[^\s]

单词字符：

[a-zA-Z_0-9]

非单词字符：

[^\w]

1.4.POSIX字符类（仅US-ASCII）（注意反斜杠要写两次，例如\p{Lower}写为\\p{Lower}）

\p{Lower}

小写字母字符：

[a-z]。

\p{Upper}

大写字母字符：

[A-Z]

\p{ASCII}

所有ASCII：

[\x00-\x7F]

\p{Alpha}

字母字符：

[\p{Lower}\p{Upper}]

\p{Digit}

十进制数字：

\p{Alnum}

字母数字字符：

[\p{Alpha}\p{Digit}]

\p{Punct}

标点符号：

#$%&

（）*+,-./:

;

@[\]^_`{|}~

\p{Graph}

可见字符：

[\p{Alnum}\p{Punct}]

\p{Print}

可打印字符：

[\p{Graph}\x20]

\p{Blank}

空格或制表符：

[\t]

\p{Cntrl}

控制字符：

[\x00-\x1F\x7F]

\p{XDigit}

十六进制数字：

[0-9a-fA-F]

\p{Space}

1.5.java.lang.Character类（简单的java字符类型）

\p{javaLowerCase}

等效于java.lang.Character.isLowerCase（）

\p{javaUpperCase}

等效于java.lang.Character.isUpperCase（）

\p{javaWhitespace}

等效于java.lang.Character.isWhitespace（）

\p{javaMirrored}

等效于java.lang.Character.isMirrored（）

1.6.Unicode块和类别的类

\p{InGreek}

Greek块（简单块）中的字符

\p{Lu}

大写字母（简单类别）

\p{Sc}

货币符号

\P{InGreek}

所有字符，Greek块中的除外（否定）

[\p{L}&

[^\p{Lu}]]

所有字母，大写字母除外（减去）

1.7.边界匹配器

行的开头，请在正则表达式的开始处使用^。

例如：

^（abc）表示以abc开头的字符串。

注意编译的时候要设置参数MULTILINE，如Patternp=Ppile（regex,Pattern.MULTILINE）;

行的结尾，请在正则表达式的结束处使用。

（^bca）.*（abc$）表示以bca开头以abc结尾的行。

单词边界。

例如\b（abc）表示单词的开始或结束包含有abc,（abcjj、jjabc都可以匹配）

非单词边界。

例如\B（abc）表示单词的中间包含有abc,（jjabcjj匹配而jjabc、abcjj不匹配）

输入的开头

上一个匹配的结尾（个人感觉这个参数没什么用）。

例如\\Gdog表示在上一个匹配结尾处查找dog如果没有的话则从开头查找,注意如果开头不是dog则不能匹配。

输入的结尾，仅用于最后的结束符（如果有的话）

行结束符是一个或两个字符的序列，标记输入字符序列的行结尾。

以下代码被识别为行结束符：

‐新行（换行）符（'

\n'

）、

‐后面紧跟新行符的回车符（"

\r\n"

‐单独的回车符（'

\r'

‐下一行字符（'

\u0085'

‐行分隔符（'

\u2028'

）或

‐段落分隔符（'

\u2029）。

输入的结尾

当编译模式时，可以设置一个或多个标志，例如

Patternpattern=Ppile（patternString,Pattern.CASE_INSENSITIVE+Pattern.UNICODE_CASE）;

下面六个标志都是支持的：

‐CASE_INSENSITIVE：

匹配字符时与大小写无关，该标志默认只考虑USASCII字符。

‐UNICODE_CASE：

当与CASE_INSENSITIVE结合时，使用Unicode字母匹配

‐MULTILINE：

^和$匹配一行的开始和结尾，而不是整个输入

‐UNIX_LINES：

当在多行模式下匹配^和$时，只将'

看作行终止符

‐DOTALL:

当使用此标志时，.符号匹配包括行终止符在内的所有字符

‐CANON_EQ:

考虑Unicode字符的规范等价

1.8.Greedy数量词

X，一次或一次也没有

X，零次或多次

X+

X，一次或多次

X{n}

X，恰好n次

X{n,}

X，至少n次

X{n,m}

X，至少n次，但是不超过m次

1.9.Reluctant数量词

X*?

X+?

X{n}?

X{n,}?

X{n,m}?

1.10.Possessive数量词

X*+

X++

X{n}+

X{n,}+

X{n,m}+

Greedy，Reluctant，Possessive的区别在于:

（注意仅限于进行.等模糊处理时）

greedy量词被看作“贪婪的”，因为它第一次就读入整个被模糊匹配的字符串。

如果第一个匹配尝试（整个输入字符串）失败，匹配器就会在被匹配字符串中的最后一位后退一个字符并且再次尝试，重复这个过程，直到找到匹配或者没有更多剩下的字符可以后退为止。

根据表达式中使用的量词，它最后试图匹配的内容是1个或者0个字符。

但是，reluctant量词采取相反的方式：

它们从被匹配字符串的开头开始，然后逐步地一次读取一个字符搜索匹配。

它们最后试图匹配的内容是整个输入字符串。

最后，possessive量词总是读完整个输入字符串，尝试一次（而且只有一次）匹配。

和greedy量词不同，possessive从不后退。

1.11.Logical运算符

X后跟Y

X|Y

X或Y

（X）

X，作为捕获组。

例如（abc）表示把abc作为一个整体进行捕获

1.12.Back引用

任何匹配的nth捕获组

捕获组可以通过从左到右计算其开括号来编号。

例如，在表达式（（A）（B（C）））中，存在四个这样的组：

（（A）（B（C）））

（B（C））

（C）

在表达式中可以通过\n来对相应的组进行引用，例如（ab）34\1就表示ab34ab，（ab）34（cd）\1\2就表示ab34cdabcd。

1.13.引用

Nothing，但是引用以下字符

Nothing，但是引用所有字符，直到\E。

QE之间的字符串会原封不动的使用（1.1中转义字符的除外）。

例如,ab\\Q{|}\\\\E

可以匹配ab{|}\\

Nothing，但是结束从\Q开始的引用

1.14.特殊构造（非捕获）

（?

X）

X，作为非捕获组

idmsux-idmsux）

Nothing，但是将匹配标志由on转为off。

比如：

表达式（?

i）abc（?

-i）def这时，（?

i）打开不区分大小写开关，abc匹配

idmsux说明如下：

‐iCASE_INSENSITIVE:

US-ASCII字符集不区分大小写。

i）

‐dUNIX_LINES:

打开UNIX换行符

‐mMULTILINE:

多行模式（?

m）

UNIX下换行为\n

WINDOWS下换行为\r\n（?

s）

‐uUNICODE_CASE:

Unicode不区分大小写。

u）

‐xCOMMENTS:

可以在pattern里面使用注解，忽略pattern里面的whitespace，以及"

一直到结尾（#后面为注解）。

x）例如（?

x）abc#asfsdadsa可以匹配字符串abc

idmsux-idmsux:

X，作为带有给定标志on-off的非捕获组。

与上面的类似，上面的表达式，可以改写成为：

abc）def，或者（?

-i:

def）

=X）

X，通过零宽度的正lookahead。

零宽

展开阅读全文