发表日期：2021-07-01 08:57:01 | 来源： | 分类：PCRE 正则语法

注释

字符序列(?#标记开始一个注释直到遇到一个右括号。不允许嵌套括号。注释中的字符不会作为模式的一部分参与匹配。

如果设置了 PCRE_EXTENDED 选项，一个字符类外部的未转义的 # 字符就代表本行剩余部分为注释。

发表日期：2021-07-01 08:57:01 | 来源： | 分类：PCRE 正则语法

性能

模式中一些项可能比其他一些更加高效。比如使用 [aeiou] 这样的字符类会比可选路径 (a|e|i|o|u) 高效。一般而言，用尽可能简单的构造描述需求是最高效的。 Jeffrey Friedl 书(精通正则表达式)中包含了很多关于正则表达式性能的讨论。

当一个模式以 .* 开始并且设置了 PCRE_DOTALL 选项时，模式通过PCRE隐式锚定，因为它可以匹配字符串的开始。然而，如果 PCRE_DOTALL 没有设置，PCRE 不能做这个优化，因为.元字符不能匹配换行符，如果目标字符串包含换行符，模式可能会从一个换行符后面开始匹配，而不是最开始位置。比如，模式 (.*) second 匹配目标字符串 ”first\nand second”(\n 是一个换行符)第一个捕获子组结果是 ”and”。为了这样做， PCRE 尝试从目标字符串中每个换行符后开始匹配。

如果你使用模式匹配没有换行符的目标字符串，可以通过设置 PCRE_DOTALL 或以 ^.* 开始的模式明确指示锚定以获取最佳性能。这样节省了 PCRE 沿目标字符串扫描查找换行符重新开始的时间。

小心模式中的无限重复嵌套。这在应用到不匹配字符串时可能会导致运行时间很长。考虑模式片段 (a+)*

这个模式可以有 33 种方式匹配 ”aaaa”，并且这个数字会随着字符串的长度的增加迅速增加. (*重复可以匹配0,1,2,3,4次, 并且除了0外每种情况+都有不同次数的匹配对应)。当模式的剩余部分导致整个匹配失败的时候， PCRE原则上回尝试每种可能的变化，这将会非常耗时。

对于一些简单的情况的优化是像 (a+)*b 这样紧接着使用原文字符串.。在着手正式匹配工作之前，PCRE 检查目标字符串后面是否有 ”b” 字符，如果没有就立即失败。然而当紧接着没有原文字符的时候这个优化是不可用的。你可以比较观察 (a+)*\d 和上面模式的行为差异。前者在应用到整行的 ”a” 组成的字符串时几乎是立即报告失败，而后者在目标字符串长于 20 个字符时，时间消耗就相当可观。

Property	Matches	Notes
`C`	Other
`Cc`	Control
`Cf`	Format
`Cn`	Unassigned
`Co`	Private use
`Cs`	Surrogate
`L`	Letter	包含以下属性：`Ll`、 `Lm`、`Lo`、`Lt`、 `Lu`.
`Ll`	小写字母
`Lm`	Modifier letter
`Lo`	Other letter
`Lt`	Title case letter
`Lu`	Upper case letter
`M`	Mark
`Mc`	Spacing mark
`Me`	Enclosing mark
`Mn`	Non-spacing mark
`N`	Number
`Nd`	Decimal number
`Nl`	Letter number
`No`	Other number
`P`	Punctuation
`Pc`	Connector punctuation
`Pd`	Dash punctuation
`Pe`	Close punctuation
`Pf`	Final punctuation
`Pi`	Initial punctuation
`Po`	Other punctuation
`Ps`	Open punctuation
`S`	Symbol
`Sc`	Currency symbol
`Sk`	Modifier symbol
`Sm`	Mathematical symbol
`So`	Other symbol
`Z`	Separator
`Zl`	Line separator
`Zp`	Paragraph separator
`Zs`	Space separator

`Arabic`	`Armenian`	`Avestan`	`Balinese`	`Bamum`
`Batak`	`Bengali`	`Bopomofo`	`Brahmi`	`Braille`
`Buginese`	`Buhid`	`Canadian_Aboriginal`	`Carian`	`Chakma`
`Cham`	`Cherokee`	`Common`	`Coptic`	`Cuneiform`
`Cypriot`	`Cyrillic`	`Deseret`	`Devanagari`	`Egyptian_Hieroglyphs`
`Ethiopic`	`Georgian`	`Glagolitic`	`Gothic`	`Greek`
`Gujarati`	`Gurmukhi`	`Han`	`Hangul`	`Hanunoo`
`Hebrew`	`Hiragana`	`Imperial_Aramaic`	`Inherited`	`Inscriptional_Pahlavi`
`Inscriptional_Parthian`	`Javanese`	`Kaithi`	`Kannada`	`Katakana`
`Kayah_Li`	`Kharoshthi`	`Khmer`	`Lao`	`Latin`
`Lepcha`	`Limbu`	`Linear_B`	`Lisu`	`Lycian`
`Lydian`	`Malayalam`	`Mandaic`	`Meetei_Mayek`	`Meroitic_Cursive`
`Meroitic_Hieroglyphs`	`Miao`	`Mongolian`	`Myanmar`	`New_Tai_Lue`
`Nko`	`Ogham`	`Old_Italic`	`Old_Persian`	`Old_South_Arabian`
`Old_Turkic`	`Ol_Chiki`	`Oriya`	`Osmanya`	`Phags_Pa`
`Phoenician`	`Rejang`	`Runic`	`Samaritan`	`Saurashtra`
`Sharada`	`Shavian`	`Sinhala`	`Sora_Sompeng`	`Sundanese`
`Syloti_Nagri`	`Syriac`	`Tagalog`	`Tagbanwa`	`Tai_Le`
`Tai_Tham`	`Tai_Viet`	`Takri`	`Tamil`	`Telugu`
`Thaana`	`Thai`	`Tibetan`	`Tifinagh`	`Ugaritic`
`Vai`	`Yi`

注释

性能

后向引用

递归模式

简介

Unicode 字符属性

转义序列(反斜线)

示例1

示例1

示例2

示例3

示例4

示例5

示例6

示例7

示例1

示例2

示例3

示例4

示例5

示例6

示例1

示例1

示例1

示例2

示例3

示例1

示例2

示例3

示例1

示例1

示例2

示例3

示例4

示例5

示例6

示例7

示例8

示例1

示例1

示例2

示例1

示例2

示例3

示例4

session_write_close

说明

参数

返回值

更新日志

参见