PCRE 正则语法

发表日期：2021-07-01 08:57:00 | 来源： | 分类：PCRE 正则语法

简介

下面描述的是 PCRE 支持的正则表达式语法和语义。正则表达式在 perl 的文档和另外一些书籍中也有讨论, 其中一些会有丰富的示例。O'Reilly(ISBN 1-56592-257-3) 出版的 Jeffrey Friedl 的《精通正则表达式》一书非常详细的讨论了这些内容。这里的描述仅作为一个参考手册。

正则表达式是一个从左到右匹配目标字符串的模式。大多数字符自身就代表一个匹配它们自身的模式。作为一个简单的例子，模式 The quick brown fox 匹配目标字符串中与其相同的部分。

元字符	描述
\	一般用于转义字符
^	断言目标的开始位置(或在多行模式下是行首)
$	断言目标的结束位置(或在多行模式下是行尾)
.	匹配除换行符外的任何字符(默认)
[	开始字符类定义
]	结束字符类定义
\|	开始一个可选分支
(	子组的开始标记
)	子组的结束标记
?	作为量词，表示 0 次或 1 次匹配。位于量词后面用于改变量词的贪婪特性。 (查阅量词)
*	量词，0 次或多次匹配
+	量词，1 次或多次匹配
{	自定义量词开始标记
}	自定义量词结束标记

元字符	描述
\	转义字符
^	仅在作为第一个字符(方括号内)时，表明字符类取反
-	标记字符范围

Property	Matches	Notes
`C`	Other
`Cc`	Control
`Cf`	Format
`Cn`	Unassigned
`Co`	Private use
`Cs`	Surrogate
`L`	Letter	包含以下属性：`Ll`、 `Lm`、`Lo`、`Lt`、 `Lu`.
`Ll`	小写字母
`Lm`	Modifier letter
`Lo`	Other letter
`Lt`	Title case letter
`Lu`	Upper case letter
`M`	Mark
`Mc`	Spacing mark
`Me`	Enclosing mark
`Mn`	Non-spacing mark
`N`	Number
`Nd`	Decimal number
`Nl`	Letter number
`No`	Other number
`P`	Punctuation
`Pc`	Connector punctuation
`Pd`	Dash punctuation
`Pe`	Close punctuation
`Pf`	Final punctuation
`Pi`	Initial punctuation
`Po`	Other punctuation
`Ps`	Open punctuation
`S`	Symbol
`Sc`	Currency symbol
`Sk`	Modifier symbol
`Sm`	Mathematical symbol
`So`	Other symbol
`Z`	Separator
`Zl`	Line separator
`Zp`	Paragraph separator
`Zs`	Space separator

`Arabic`	`Armenian`	`Avestan`	`Balinese`	`Bamum`
`Batak`	`Bengali`	`Bopomofo`	`Brahmi`	`Braille`
`Buginese`	`Buhid`	`Canadian_Aboriginal`	`Carian`	`Chakma`
`Cham`	`Cherokee`	`Common`	`Coptic`	`Cuneiform`
`Cypriot`	`Cyrillic`	`Deseret`	`Devanagari`	`Egyptian_Hieroglyphs`
`Ethiopic`	`Georgian`	`Glagolitic`	`Gothic`	`Greek`
`Gujarati`	`Gurmukhi`	`Han`	`Hangul`	`Hanunoo`
`Hebrew`	`Hiragana`	`Imperial_Aramaic`	`Inherited`	`Inscriptional_Pahlavi`
`Inscriptional_Parthian`	`Javanese`	`Kaithi`	`Kannada`	`Katakana`
`Kayah_Li`	`Kharoshthi`	`Khmer`	`Lao`	`Latin`
`Lepcha`	`Limbu`	`Linear_B`	`Lisu`	`Lycian`
`Lydian`	`Malayalam`	`Mandaic`	`Meetei_Mayek`	`Meroitic_Cursive`
`Meroitic_Hieroglyphs`	`Miao`	`Mongolian`	`Myanmar`	`New_Tai_Lue`
`Nko`	`Ogham`	`Old_Italic`	`Old_Persian`	`Old_South_Arabian`
`Old_Turkic`	`Ol_Chiki`	`Oriya`	`Osmanya`	`Phags_Pa`
`Phoenician`	`Rejang`	`Runic`	`Samaritan`	`Saurashtra`
`Sharada`	`Shavian`	`Sinhala`	`Sora_Sompeng`	`Sundanese`
`Syloti_Nagri`	`Syriac`	`Tagalog`	`Tagbanwa`	`Tai_Le`
`Tai_Tham`	`Tai_Viet`	`Takri`	`Tamil`	`Telugu`
`Thaana`	`Thai`	`Tibetan`	`Tifinagh`	`Ugaritic`
`Vai`	`Yi`

`alnum`	字母和数字
`alpha`	字母
`ascii`	0 - 127的ascii字符
`blank`	空格和水平制表符
`cntrl`	控制字符
`digit`	十进制数(same as \d)
`graph`	打印字符, 不包括空格
`lower`	小写字母
`print`	打印字符,包含空格
`punct`	打印字符, 不包括字母和数字
`space`	空白字符 (比\s多垂直制表符)
`upper`	大写字母
`word`	单词字符(和 \w 一样)
`xdigit`	十六进制数字

`i`	for PCRE_CASELESS
`m`	for PCRE_MULTILINE
`s`	for PCRE_DOTALL
`x`	for PCRE_EXTENDED
`U`	for PCRE_UNGREEDY
`X`	for PCRE_EXTRA
`J`	for PCRE_INFO_JCHANGED

**单字符量词**
`*`	等价于 `{0,}`
`+`	等价于 `{1,}`
`?`	等价于 `{0,1}`

简介

分隔符

元字符

转义序列(反斜线)

Unicode 字符属性

锚

句点

字符类(方括号)

可选路径(|)

内部选项设置

子组(子模式)

重复/量词

后向引用

断言

一次性子组

条件子组

注释

递归模式

性能