重复/量词
发表日期:2021-07-01 08:57:01 | 来源: | | 浏览(988) 分类:PCRE 正则语法
重复/量词
重复次数是通过量词指定的,可以紧跟在下面元素之后:
- 单独的字符, 可以是经过转义的
- 元字符。
- 字符类
- 后向引用(参加下一部分)
- 子组(除非它是一个断言,参考下文)
一般的重复量词指定了一个最小数值和一个最大数值的匹配次数,
通过花括号包裹两个数字,两个数字之间用逗号隔开的语法定义。
两个数值都必须小于 65536, 并且第一个数字必须小于等于第二个。 比如:
z{2,4}
匹配 ”zz”, “zzz”, “zzzz”。 单个的右花括号不是特殊字符。
如果第二个数字被省略,但是逗号仍然存在,就代表没有上限;
如果第二个数字和逗号都被省略,那么这个量词就限定的是一个确定次数的匹配。
比如
[aeiou]{3,}
匹配至少三个连续的元音字母,但是同时也可以匹配更多,
而
\d{8}
则只能匹配 8 个数字。
左花括号出现在不允许使用量词的位置或者与量词语法不匹配时,
被认为是一个普通字符,对它自身进行原文匹配。 比如,{,6}就不是一个量词,
会按照原文匹配四个字符 ”{,6}”。
量词 {0} 是被授权的,它会导致的行为是认为前面的项和量词不存在。
为了方便(以及历史的兼容性),最常用的三个量词都有单字符缩写。
* |
等价于 {0,} |
+ |
等价于 {1,} |
? |
等价于 {0,1} |
可以通过一个不匹配任何字符的子模式后面紧跟一个匹配 0 或多个字符的量词
来构造一个没有上限的无限循环。比如:
(a?)*
早期版本的 Perl 和 PCRE 对于这种模式会在编译期得到一个错误。然而, 由于这在某些情况下是有用的,因此现在也接受这种模式了, 但是如果任何子模式的重复确实匹配不到任何字符,循环会被强制跳出。
默认情况下,量词都是”贪婪”的,也就是说,
它们会在不导致模式匹配失败的前提下,尽可能多的匹配字符(直到最大允许的匹配次数)。
这种问题的典型示例就是尝试匹配C语言的注释。
出现在 /* 和 */ 之间的所有内容都被认为是注释, 在注释中间,
可以允许出现单独的 * 和 /。
对 C 注释匹配的一个尝试是使用模式
/\*.*\*/
,
假设将此模式应用在字符串 ”
/* first comment*/ not comment /*second
comment*/
”
它会匹配到错误的结果,也就是整个字符串,
这是因为量词的贪婪性导致的,它会尝试尽可能多的匹配字符。
然而,如果一个量词紧跟着一个 ?(问号) 标记,它就会成为懒惰(非贪婪)模式,
它不再尽可能多的匹配,而是尽可能少的匹配。
因此模式
/\*.*?\*/
在 C 的注释匹配上将会正确的执行。
各个量词自身的意义并不会改变,而是由于加入了 ? 使其首选的匹配次数发生改变。
不要将 ? 的这个用法和它作为量词的用法混淆。因为它又两种用法,
因此有时它会出现量词,比如
\d??\d
会更倾向于匹配一个数字,
但同时如果为了达到整个模式匹配的目的,它也可以接受两个数字的匹配。译注:以模式 \w\d??\d\w 为例,对于字符串 ”a33a”,虽然 \d?? 是非贪婪的,
但由于如果使用贪婪会导致整个模式不匹配,所以,
最终它选择的仍然是匹配到一个数字。
如果 PCRE_UNGREEDY 选项被设置(一个在 perl 中不可用的选项), 那么量词默认情况下就是非贪婪的了。但是, 单个的量词可以通过紧跟一个 ? 来使其成为贪婪的。换句话说, PCRE_UNGREEDY 这个选项逆转了贪婪的默认行为。
量词后面紧跟一个 ”+
” 是”占有”性。它会吃掉尽可能多的字符,
并且不关注后面的其他模式,比如 .*abc
匹配 ”aabc”,
但是 .*+abc
不会匹配,
因为 .*+
会吃掉整个字符串,从而导致后面剩余的模式得不到匹配。
可以使用占有符 (+) 修饰量词来达到提升速度的目的。
当一个子组受最小数量大于 1 或有一个最大数量限制的量词修饰时, 按照最小或最大的数量的比例需要更多的存储用于编译模式。
如果一个模式以 .* 或 .{0,} 开始并且 PCRE_DOTALL 选项开启(等价于 Perl 的 /s), 也就是允许 . 匹配换行符,那么模式会隐式的紧固,因为不管怎么样, 接下来都会对目标字符串中的每个字符位置进行尝试,因此在第一次之后, 在任何位置都不会有一个对所有匹配重试的点。 PCRE 会想对待 \A 一样处理这个模式。 在我们已知目标字符串没有包含换行符的情况下, 当模式以 .* 开始的时候我们为了获得这个优化,值得设置 PCRE_DOTALL, 或者选择使用 ^ 明确指明锚定。
译注:这里的优化指模式不匹配之后,不会回头再来查找下一个位置, 比如没有设置 PCRE_DOTALL,并且目标字符串第一个字符时换行符, 那么模式尝试第一个字符,发现不匹配, 会重新用模式从第二个字符位置开始进行尝试。 而使用了PCRE_DOTALL后, 是肯定匹配的….同理,当使用了 ^ 或者 /A的限定是,模式一旦不匹配,都可以直接退出, 而不用在目标字符串下一个位置再一次开始整个模式的匹配。
当一个捕获子组时重复的时,捕获到的该子组的结果是最后一次迭代捕获的值。比如,
(tweedle[dume]{3}\s*)+
匹配字符串 ”tweedledum tweedledee”,
得到的的子组捕获结果是 ”tweedledee”。然而,如果是嵌套的捕获子组,
相应的捕获值可能会被设置到之前的迭代中。
比如,
/(a|(b))+/
匹配字符串 ”aba”,
第二个捕获子组得到的结果会是 ”b”。译注:以例子说明,
b 是第二个子组最后一次捕获到的结果,所以, 第二个子组最后结果是 b,
这是符合”然而”之前描述的规则的。
- PHP(0)
- PHP杂项(34)
- PHP基础-李炎恢系列课程(20)
- 中文函数手册(0)
- 错误处理 函数(13)
- OPcache 函数(6)
- PHP 选项/信息 函数(54)
- Zip 函数(10)
- Hash 函数(15)
- OpenSSL 函数(63)
- Date/Time 函数(51)
- 目录函数(9)
- Fileinfo 函数(6)
- iconv 函数(11)
- 文件系统函数(81)
- 多字节字符串 函数(57)
- GD 和图像处理 函数(114)
- 可交换图像信息(5)
- Math 函数(50)
- 程序执行函数(11)
- PCNTL 函数(23)
- JSON 函数(4)
- SPL 函数(15)
- URL 函数(10)
- cURL 函数(32)
- 网络 函数(33)
- FTP 函数(36)
- Session 函数(23)
- PCRE 函数(11)
- PCRE 正则语法(19)
- 简介(0)
- 分隔符(0)
- 元字符(0)
- 转义序列(反斜线)(0)
- Unicode 字符属性(0)
- 锚(0)
- 句点(0)
- 字符类(方括号)(0)
- 可选路径(|)(0)
- 内部选项设置(0)
- 子组(子模式)(0)
- 重复/量词(0)
- 后向引用(0)
- 断言(0)
- 一次性子组(0)
- 条件子组(0)
- 注释(0)
- 递归模式(0)
- 性能(0)
- 数组 函数(81)
- 类/对象 函数(18)
- 函数处理 函数(13)
- 变量处理 函数(37)
- SimpleXML 函数(3)
- 杂项 函数(31)
- 字符串 函数(101)