无需言 做自己 业 ,精于勤 荒于嬉.

数组 函数 array_intersect_key 使用键名比较计算数组的交集

发表日期:2021-07-01 08:57:06 | 来源: | 分类:数组 函数

      示例1
<?php 
$array1 = array('blue'  => 1, 'red'  => 2, 'green'  => 3, 'purple' => 4);
$array2 = array('green' => 5, 'blue' => 6, 'yellow' => 7, 'cyan'   => 8);
var_dump(array_intersect_key($array1, $array2));
?>

阅读全文 »

数组 函数 array_flip 交换数组中的键和值

发表日期:2021-07-01 08:57:06 | 来源: | 分类:数组 函数

      示例1
<?php 
$input = array("oranges", "apples", "pears");
$flipped = array_flip($input);
print_r($flipped);
?>

      示例2
<?php 
$input = array("a" => 1, "b" => 1, "c" => 2);
$flipped = array_flip($input);
print_r($flipped);
?>

阅读全文 »

数组 函数 array_intersect 计算数组的交集

发表日期:2021-07-01 08:57:06 | 来源: | 分类:数组 函数

      示例1
<?php 
$array1 = array("a" => "green", "red", "blue");
$array2 = array("b" => "green", "yellow", "red");
$result = array_intersect($array1, $array2);
print_r($result);
?>

阅读全文 »

数组 函数 array_intersect_uassoc 带索引检查计算数组的交集,用回调函数比较索引

发表日期:2021-07-01 08:57:06 | 来源: | 分类:数组 函数

      示例1
<?php 
$array1 = array("a" => "green", "b" => "brown", "c" => "blue", "red");
$array2 = array("a" => "GREEN", "B" => "brown", "yellow", "red");
print_r(array_intersect_uassoc($array1, $array2, "strcasecmp"));
?>

阅读全文 »

数组 函数 array_filter 使用回调函数过滤数组的元素

发表日期:2021-07-01 08:57:06 | 来源: | 分类:数组 函数

      示例1
<?php 
function odd($var){
    // 返回输入整数是否为奇数(单数)    return $var & 1;
}
function even($var){
    // 返回输入整数是否为偶数    return !($var & 1);
}
$array1 = ['a' => 1, 'b' => 2, 'c' => 3, 'd' => 4, 'e' => 5];
$array2 = [6, 7, 8, 9, 10, 11, 12];
echo "Odd :\n";
print_r(array_filter($array1, "odd"));
echo "Even:\n";
print_r(array_filter($array2, "even"));
?>

      示例2
<?php 
$entry = [    0 => 'foo',    1 => false,    2 => -1,    3 => null,    4 => '',    5 => '0',    6 => 0,];
print_r(array_filter($entry));
?>

      示例3
<?php 
$arr = ['a' => 1, 'b' => 2, 'c' => 3, 'd' => 4];
var_dump(array_filter($arr, function($k) {
    return $k == 'b';
}
, ARRAY_FILTER_USE_KEY));
var_dump(array_filter($arr, function($v, $k) {
    return $k == 'b' || $v == 4;
}
, ARRAY_FILTER_USE_BOTH));
?>

阅读全文 »

数组 函数 array_intersect_ukey 在键名上使用回调函数来比较计算数组的交集

发表日期:2021-07-01 08:57:06 | 来源: | 分类:数组 函数

      示例1
<?php 
function key_compare_func($key1, $key2){
    if ($key1 == $key2)        return 0;
    else if ($key1 > $key2)        return 1;
    else        return -1;
}
$array1 = array('blue'  => 1, 'red'  => 2, 'green'  => 3, 'purple' => 4);
$array2 = array('green' => 5, 'blue' => 6, 'yellow' => 7, 'cyan'   => 8);
var_dump(array_intersect_ukey($array1, $array2, 'key_compare_func'));
?>

阅读全文 »

数组 函数 array_column 返回数组中指定的一列

发表日期:2021-07-01 08:57:05 | 来源: | 分类:数组 函数

      示例1
<?php 
// Array representing a possible record set returned from a database$records = array(    array(        'id' => 2135,        'first_name' => 'John',        'last_name' => 'Doe',    ),    array(        'id' => 3245,        'first_name' => 'Sally',        'last_name' => 'Smith',    ),    array(        'id' => 5342,        'first_name' => 'Jane',        'last_name' => 'Jones',    ),    array(        'id' => 5623,        'first_name' => 'Peter',        'last_name' => 'Doe',    ));
 $first_names = array_column($records, 'first_name');
print_r($first_names);
?>

      示例2
<?php 
// Using the $records array from Example #1$last_names = array_column($records, 'last_name', 'id');
print_r($last_names);
?>

      示例3
<?php 
class User{
    public $username;
    public function __construct(string $username)    {
        $this->username = $username;
    }
}
$users = [    new User('user 1'),    new User('user 2'),    new User('user 3'),];
print_r(array_column($users, 'username'));
?>

      示例4
<?php 
class Person{
    private $name;
    public function __construct(string $name)    {
        $this->name = $name;
    }
    public function __get($prop)    {
        return $this->$prop;
    }
    public function __isset($prop) : bool    {
        return isset($this->$prop);
    }
}
$people = [    new Person('Fred'),    new Person('Jane'),    new Person('John'),];
print_r(array_column($people, 'name'));
?>

阅读全文 »

数组 函数 array_change_key_case 将数组中的所有键名修改为全大写或小写

发表日期:2021-07-01 08:57:05 | 来源: | 分类:数组 函数

      示例1
<?php 
$input_array = array("FirSt" => 1, "SecOnd" => 4);
print_r(array_change_key_case($input_array, CASE_UPPER));
?>

阅读全文 »

PCRE 正则语法 元字符

发表日期:2021-07-01 08:57:01 | 来源: | 分类:PCRE 正则语法

元字符

正则表达式的威力源于它可以在模式中拥有选择和重复的能力。 一些字符被赋予 特殊的涵义,使其不再单纯的代表自己,模式中的这种有特殊涵义的编码字符 称为 元字符

共有两种不同的元字符:一种是可以在模式中方括号外任何地方使用的,另外一种 是需要在方括号内使用的。 在方括号外使用的元字符如下:

方括号外的元字符
元字符描述
\一般用于转义字符
^断言目标的开始位置(或在多行模式下是行首)
$断言目标的结束位置(或在多行模式下是行尾)
.匹配除换行符外的任何字符(默认)
[开始字符类定义
]结束字符类定义
|开始一个可选分支
(子组的开始标记
)子组的结束标记
?作为量词,表示 0 次或 1 次匹配。位于量词后面用于改变量词的贪婪特性。 (查阅量词)
*量词,0 次或多次匹配
+量词,1 次或多次匹配
{自定义量词开始标记
}自定义量词结束标记
模式中方括号内的部分称为“字符类”。 在一个字符类中仅有以下可用元字符:
方括号内的元字符(字符类
元字符描述
\转义字符
^仅在作为第一个字符(方括号内)时,表明字符类取反
-标记字符范围
下面章节描述了每个元字符的用法。

阅读全文 »

PCRE 正则语法 分隔符

发表日期:2021-07-01 08:57:01 | 来源: | 分类:PCRE 正则语法

分隔符

当使用 PCRE 函数的时候,模式需要由分隔符闭合包裹。 分隔符可以是任意非字母数字、非反斜线、非空白字符。 静默忽略合法分隔符之前的空白字符。

经常使用的分隔符是正斜线(/)、hash符号(#) 以及取反符号(~)。下面的例子都是使用合法分隔符的模式。

/foo bar/
#^[^0-9]$#
+php+
%[a-zA-Z0-9_-]%

It is also possible to use bracket style delimiters where the opening and closing brackets are the starting and ending delimiter, respectively. (), {}, [] and <> are all valid bracket style delimiter pairs.

(this [is] a (pattern))
{this [is] a (pattern)}
[this [is] a (pattern)]
<this [is] a (pattern)>
Bracket style delimiters do not need to be escaped when they are used as meta characters within the pattern, but as with other delimiters they must be escaped when they are used as literal characters.

如果需要在正则模式内匹配分隔符,必须使用反斜线转义。如果分隔符经常在 正则模式内出现, 最好使用其他分隔符以便提高可读性。

/http:\/\//
#http://#
需要将一个字符串放入模式中使用时,可以用 preg_quote() 函数对其进行 转义,它的第二个参数(可选)可以用于指定需要被转义的分隔符。

可以在结束分隔符后面增加模式修饰符。 下面的例子是一个大小写不敏感的匹配:

#[a-z]#i

阅读全文 »

PCRE 正则语法 锚

发表日期:2021-07-01 08:57:01 | 来源: | 分类:PCRE 正则语法

在一个字符类外面,在默认匹配模式下, 脱字符(^) 是一个断言当前匹配点位于目标字符串开始处的断言。 在一个字符类内部, 脱字符(^) 表明这个字符类中描述的字符取反(详见下文)。

脱字符(^)并不一定要是模式的第一个字符, 但是如果处于某个可选分支时, 它应该是该分支的首字符。如果所有选择分支都以脱字符(^)开头,这就是说, 如果模式限制为只匹配目标的开头, 它被称为是一个 ”紧固” 模式。(同样也有其他方式可以构造出紧固模式)

美元符($)是用于断言当前匹配点位于目标字符串末尾, 或当目标字符串以换行符结尾时当前匹配点位于该换行符位置(默认情况)。 美元符($)不一定要作为模式的最后一个字符,但是如果它在某个可选分支中时, 就应该位于该分支的末尾。美元符在字符类中没有特殊的意义。

$ 的意义可以通过在编译或匹配时设置 PCRE_DOLLAR_ENDONLY 改变为只匹配字符串末尾。 这不会影响 \Z 断言的行为。

脱字符 ^ 和美元符 $ 字符的意义在 PCRE_MULTILINE 选项被设置时会发生变化。 当在这种情况下时, 它们匹配每一个换行符后面的和前面的字符,另外, 也会匹配目标字符串的开始和结束。比如, 模式 /^abc$/ 在多行模式下会成功匹配目标字符串 ”def\nabc”, 而正常情况下不会。因此,由于所有的可选分支都以 "^" 开始, 在单行模式下这成为紧固模式,然而在多行模式下,这是非紧固的。 PCRE_DOLLAR_ENDONLY 选项在 PCRE_MULTILINE 设置后失效。

注意: \A、\Z、 \z 等转义序列可以在任何模式下用于匹配目标字符串的开始和结束位置。 并且如果模式的所有分支都以 \A 开始,它同样是紧固的, 而与 PCRE_MULTILINE 是否设置无关。

阅读全文 »

PCRE 正则语法 字符类(方括号)

发表日期:2021-07-01 08:57:01 | 来源: | 分类:PCRE 正则语法

字符类(方括号)

左方括号开始一个字符类的描述,并以方中括号结束。 单独的一个右方括号没有特殊含义。如果一个右方括号需要作为一个字符类中的成员, 那么可以将它写在字符类的首字符处(如果使用了 ^ 取反, 那么是第二个)或者使用转义符。

一个字符类在目标字符串中匹配一个单独的字符; 该字符必须是字符类中定义的字符集合的其中一个, 除非使用了 ^ 对字符类取反。 如果^需要作为一个字符类的成员,确保它不是该字符类的首字符, 或者对其进行转义即可。

例如,字符类[aeiou]匹配所有的小写元音字母, 而[^aeiou]匹配所有非元音字母的字符。注意: ^只是一个通过枚举指定那些不存在字符类之中的字符的便利符号。而不是断言, 它仍然会从目标字符串中消耗一个字符,并且如果当前匹配点在目标字符串末尾, 匹配将会失败。

当大小写无关匹配被设置后,任意字符类都同时代表大小写两种版本,因此对于例子, 一个大小写不敏感的[aeiou]同时匹配"A"和"a", 并且大小写不敏感的[^aeiou]同时不匹配 "A"。

换行符在字符类中没有任何特殊涵义, 与 PCRE_DOTALLPCRE_MULTILINE 选项都无关。 例如 [^a] 这样的字符类始终会匹配换行符。

在字符类中,一个中划线(减号 -)可以用于指定从一个字符到另一个字符的范围。 比如,[d-m]匹配d到m之间的所有字符,这个集合时闭合的。 如果中划线自身要在一个字符类中描述, 它必须被转移或者出现在一个不会被解释为一个范围的位置, 典型的比如字符类开始或结束位置。

在一个字符范围描述后面不能使用右中括号。 比如一个模式 [W-]46] 被解释为一个包含 W 和 - 的字符类,后面紧跟字符串 ”46]”, 因此它可以匹配 ”W46]” 或 ”-46]”。然而, 如果中括号是经过转义的, 它将会被解释为范围的终点, 因此 [W-\]46] 就会被解释为一个单独的包含 W 至 ] 范围内所有字符以及 4、6 的字符类。 8 进制或 16 进制描述的中括号同样可以用于作为范围的终点。

范围操作以 ASCII 整理排序。它们可以用于为字符指定数值,比如 [\000-\037]。 如果在大小写不敏感匹配模式下使用一个包含字母的范围, 则同时匹配它的大小写形式。 比如 [W-c] 在不区分大小写匹配时等价于 [][\^_`wxyzabc],并且, 如果使用了 ”fr”(法国) 的地域设置字符表时, [\xc8-xcb] 将会在所有模式下匹配重音 E 字符。

字符类\d、\D、 \s、\S、\w 和 \W 也可以出现在一个字符类中, 用以将其匹配的字符类加入到新的自定义字符类中。比如, [\dABCDEF] 匹配任意合法的 16 进制数。用 ^ 可以很方便的制定严格的字符类, 比如 [^\W_] 匹配任何字母或数字,但不匹配下划线。

所有非字母数字字符除了\、-、 ^(在起始位置)以及结束的]在字符类中都是非特殊字符, 没有转义也不会有危害。模式结束符在表达式中总是特殊字符,必须进行转义。

Perl 支持 POSIX 字符类符号。这种字符类使用[::]闭合。 PCRE 同样支持这些字符类, 比如,[01[:alpha:]%]匹配 ”0”、“1”、任意字母或”%”。 支持的字符类如下:

字符类
alnum字母和数字
alpha字母
ascii0 - 127的ascii字符
blank空格和水平制表符
cntrl控制字符
digit十进制数(same as \d)
graph打印字符, 不包括空格
lower小写字母
print打印字符,包含空格
punct打印字符, 不包括字母和数字
space空白字符 (比\s多垂直制表符)
upper大写字母
word单词字符(和 \w 一样)
xdigit十六进制数字
空白字符有HT(9)、 LF(10)、VT(11)、 FF(12)、CR(13)、space(32)。 注意, 这个列表包含了垂直制表符。这使得space不同于\s, 因为它不包含垂直制表符(为了向 Perl 兼容)

[:word:]是一个 Perl扩展,[:blank:]是一个从 Perl5.8 中来的 GNU 扩展。 另外一个 Perl 扩展是取反,通过前置一个^。 比如, [12[:^digit:]] 匹配”1”, “2” 或任何非数字字符

在 UTF-8 模式中,大于 128 的字符值不会匹配任何 POSIX 字符类。 自 libpcre 8.10 起,某些字符类改为使用 Unicode 字符属性,所以不会出现提醒中的限制。 详情参阅 » PCRE(3) manual

Unicode character properties can appear inside a character class. They can not be part of a range. The minus (hyphen) character after a Unicode character class will match literally. Trying to end a range with a Unicode character property will result in a warning.

阅读全文 »

PCRE 正则语法 可选路径(|)

发表日期:2021-07-01 08:57:01 | 来源: | 分类:PCRE 正则语法

可选路径(|)

竖线字符用于分离模式中的可选路径。 比如模式gilbert|Sullivan匹配 ”gilbert” 或者 ”sullivan”。 竖线可以在模式中出现任意多个,并且允许有空的可选路径(匹配空字符串)。 匹配的处理从左到右尝试每一个可选路径,并且使用第一个成功匹配的。 如果可选路径在子组(下面定义)中, 则”成功匹配”表示同时匹配了子模式中的分支以及主模式中的其他部分。

阅读全文 »

PCRE 正则语法 内部选项设置

发表日期:2021-07-01 08:57:01 | 来源: | 分类:PCRE 正则语法

内部选项设置

PCRE_CASELESSPCRE_MULTILINEPCRE_DOTALLPCRE_UNGREEDYPCRE_EXTRAPCRE_EXTENDED、 PCRE_DUPNAMES 等模式修饰符设置可以在模式内部通过一个 Perl 选项字符序列来设置, 语法是 (?修饰符),可用的修饰符有:

Internal option letters
i for PCRE_CASELESS
m for PCRE_MULTILINE
s for PCRE_DOTALL
x for PCRE_EXTENDED
U for PCRE_UNGREEDY
X for PCRE_EXTRA
J for PCRE_INFO_JCHANGED

比如,(?im) 设置表明多行大小写不敏感匹配。同样可以用它来取消这些设置, 比如 (?im-sx) 设置了 PCRE_CASELESSPCRE_MULTILINE, 但是同时取消了 PCRE_DOTALLPCRE_EXTENDED。 如果一个字母即出现在 - 之前, 也出现在 - 之后,这个选项被取消设置。

当一个选项在模式的最上级(也就是说不在子组中)时, 这个改变会影响模式中剩余部分。比如 /ab(?i)c/ 仅仅匹配 ”abc” 和 ”abC”。

如果一个选项在子组中设置,产生的影响是不同的。这是 Perl 5.005 中行为的一个变种。 一个选项在子组内部设置,仅仅改变子组中剩余的部分, 因此 (a(?i)b)c 仅仅匹配 ”abc” 和 ”aBc” (假设没有使用 PCRE_CASELESS 选项)。 这就意味着选项在模式的不同位置可以造成不同的影响。 在同一个子模式中, 一个分支的选项设置回穿透到后面剩余的其他分支中去。 比如 (a(?i)b|c) 匹配”ab”, “aB”, “c” 和 ”C”。 尽管在匹配 ”C” 时第一个分支会在选项被设定前就被丢弃。 这是因为选项的设定是在编译期确定的,否则可能会带来非常怪异的行为。

PCRE 专用选项 PCRE_UNGREEDYPCRE_EXTRA 可以和 Perl 兼容选项以同样的方式来改变, 分别使用字母 U 和 X。 (?X) 标记设定有些特殊,它必须出现在任何其他特性之前, 最好放在最开头的位置。

阅读全文 »

PCRE 正则语法 子组(子模式)

发表日期:2021-07-01 08:57:01 | 来源: | 分类:PCRE 正则语法

子组(子模式)

子组通过圆括号分隔界定,并且它们可以嵌套。 将一个模式中的一部分标记为子组(子模式)主要是来做两件事情:

  1. 将可选分支局部化。比如,模式cat(arcat|erpillar|)匹配 ”cat”, “cataract”, “caterpillar” 中的一个,如果没有圆括号的话,它匹配的则是 ”cataract”, “erpillar” 以及空字符串。

  2. 将子组设定为捕获子组(向上面定义的)。当整个模式匹配后, 目标字符串中匹配子组的部分将会通过 pcre_exec()()ovector 参数回传给调用者。 左括号从左至右出现的次序就是对应子组的下标(从 1 开始), 可以通过这些下标数字来获取捕获子模式匹配结果。

比如,如果字符串 ”the red king” 使用模式((red|white) (king|queen)) 进行匹配, 模式匹配到的结果是 array(“red king”, ”red king”, “red”, “king”) 的形式, 其中第 0 个元素是整个模式匹配的结果,后面的三个元素依次为三个子组匹配的结果。 它们的下标分别为 1, 2, 3。

事实上,并不一定同时需要圆括号的两种功能。 经常我们会需要子组进行分组, 但又不需要(单独的)捕获它们。 在子组定义的左括号后面紧跟字符串 ”?:” 会使得该子组不被单独捕获, 并且不会对其后子组序号的计算产生影响。比如, 如果字符串 "the white queen" 匹配模式 the ((?:red|white) (king|queen)), 匹配到的子串是 "white queen" 和 "queen", 他们的下标分别是 1 和 2。 捕获子组的最大序号为 65535。然而由于 libpcre 的配置,我们可能无法编译这么长的 正则表达式。

为了方便简写,如果需要在非捕获子组开始位置设置选项, 选项字母可以位于 ? 和 : 之间,比如两个模式:

(?i:saturday|sunday)
(?:(?i)saturday|sunday)

匹配到了完全相同的字符集。因为可选分支会从左到右尝试每个分支, 并且选项没有在子模式结束前被重置, 并且由于选项的设置会穿透对后面的其他分支产生影响,因此, 上面的模式都会匹配 ”SUNDAY” 以及 ”Saturday”。

可以对子组使用 (?P<name>pattern) 的语法进行命名。 这个子模式将会在匹配结果中同时以其名称和顺序(数字下标)出现, 还有两种为子组命名的语法: (?<name>pattern)(?'name'pattern)

有时需要多个匹配可以在一个正则表达式中选用子组。 为了让多个子组可以共用一个后向引用数字的问题, (?| 语法允许复制数字。 考虑下面的正则表达式匹配Sunday

(?:(Sat)ur|(Sun))day

这里当后向引用 1 空时Sun 存储在后向引用 2 中。 当后向引用 2 不存在的时候 Sat 存储在后向引用 1中。 使用 (?|修改模式来修复这个问题:

(?|(Sat)ur|(Sun))day

使用这个模式, SunSat 都会被存储到后向引用 1 中。

阅读全文 »

PCRE 正则语法 重复/量词

发表日期:2021-07-01 08:57:01 | 来源: | 分类:PCRE 正则语法

重复/量词

重复次数是通过量词指定的,可以紧跟在下面元素之后:

  • 单独的字符, 可以是经过转义的
  • 元字符。
  • 字符类
  • 后向引用(参加下一部分)
  • 子组(除非它是一个断言,参考下文)

一般的重复量词指定了一个最小数值和一个最大数值的匹配次数, 通过花括号包裹两个数字,两个数字之间用逗号隔开的语法定义。 两个数值都必须小于 65536, 并且第一个数字必须小于等于第二个。 比如: z{2,4} 匹配 ”zz”, “zzz”, “zzzz”。 单个的右花括号不是特殊字符。 如果第二个数字被省略,但是逗号仍然存在,就代表没有上限; 如果第二个数字和逗号都被省略,那么这个量词就限定的是一个确定次数的匹配。 比如 [aeiou]{3,} 匹配至少三个连续的元音字母,但是同时也可以匹配更多, 而 \d{8} 则只能匹配 8 个数字。 左花括号出现在不允许使用量词的位置或者与量词语法不匹配时, 被认为是一个普通字符,对它自身进行原文匹配。 比如,{,6}就不是一个量词, 会按照原文匹配四个字符 ”{,6}”。

量词 {0} 是被授权的,它会导致的行为是认为前面的项和量词不存在。

为了方便(以及历史的兼容性),最常用的三个量词都有单字符缩写。

单字符量词
* 等价于 {0,}
+ 等价于 {1,}
? 等价于 {0,1}

可以通过一个不匹配任何字符的子模式后面紧跟一个匹配 0 或多个字符的量词 来构造一个没有上限的无限循环。比如: (a?)*

早期版本的 Perl 和 PCRE 对于这种模式会在编译期得到一个错误。然而, 由于这在某些情况下是有用的,因此现在也接受这种模式了, 但是如果任何子模式的重复确实匹配不到任何字符,循环会被强制跳出。

默认情况下,量词都是”贪婪”的,也就是说, 它们会在不导致模式匹配失败的前提下,尽可能多的匹配字符(直到最大允许的匹配次数)。 这种问题的典型示例就是尝试匹配C语言的注释。 出现在 /* 和 */ 之间的所有内容都被认为是注释, 在注释中间, 可以允许出现单独的 * 和 /。 对 C 注释匹配的一个尝试是使用模式 /\*.*\*/ , 假设将此模式应用在字符串 ” /* first comment*/ not comment /*second comment*/” 它会匹配到错误的结果,也就是整个字符串, 这是因为量词的贪婪性导致的,它会尝试尽可能多的匹配字符。

然而,如果一个量词紧跟着一个 ?(问号) 标记,它就会成为懒惰(非贪婪)模式, 它不再尽可能多的匹配,而是尽可能少的匹配。 因此模式 /\*.*?\*/ 在 C 的注释匹配上将会正确的执行。 各个量词自身的意义并不会改变,而是由于加入了 ? 使其首选的匹配次数发生改变。 不要将 ? 的这个用法和它作为量词的用法混淆。因为它又两种用法, 因此有时它会出现量词,比如 \d??\d 会更倾向于匹配一个数字, 但同时如果为了达到整个模式匹配的目的,它也可以接受两个数字的匹配。译注:以模式 \w\d??\d\w 为例,对于字符串 ”a33a”,虽然 \d?? 是非贪婪的, 但由于如果使用贪婪会导致整个模式不匹配,所以, 最终它选择的仍然是匹配到一个数字。

如果 PCRE_UNGREEDY 选项被设置(一个在 perl 中不可用的选项), 那么量词默认情况下就是非贪婪的了。但是, 单个的量词可以通过紧跟一个 ? 来使其成为贪婪的。换句话说, PCRE_UNGREEDY 这个选项逆转了贪婪的默认行为。

量词后面紧跟一个 ”+” 是”占有”性。它会吃掉尽可能多的字符, 并且不关注后面的其他模式,比如 .*abc 匹配 ”aabc”, 但是 .*+abc 不会匹配, 因为 .*+ 会吃掉整个字符串,从而导致后面剩余的模式得不到匹配。 可以使用占有符 (+) 修饰量词来达到提升速度的目的。

当一个子组受最小数量大于 1 或有一个最大数量限制的量词修饰时, 按照最小或最大的数量的比例需要更多的存储用于编译模式。

如果一个模式以 .* 或 .{0,} 开始并且 PCRE_DOTALL 选项开启(等价于 Perl 的 /s), 也就是允许 . 匹配换行符,那么模式会隐式的紧固,因为不管怎么样, 接下来都会对目标字符串中的每个字符位置进行尝试,因此在第一次之后, 在任何位置都不会有一个对所有匹配重试的点。 PCRE 会想对待 \A 一样处理这个模式。 在我们已知目标字符串没有包含换行符的情况下, 当模式以 .* 开始的时候我们为了获得这个优化,值得设置 PCRE_DOTALL, 或者选择使用 ^ 明确指明锚定。

译注:这里的优化指模式不匹配之后,不会回头再来查找下一个位置, 比如没有设置 PCRE_DOTALL,并且目标字符串第一个字符时换行符, 那么模式尝试第一个字符,发现不匹配, 会重新用模式从第二个字符位置开始进行尝试。 而使用了PCRE_DOTALL后, 是肯定匹配的….同理,当使用了 ^ 或者 /A的限定是,模式一旦不匹配,都可以直接退出, 而不用在目标字符串下一个位置再一次开始整个模式的匹配。

当一个捕获子组时重复的时,捕获到的该子组的结果是最后一次迭代捕获的值。比如, (tweedle[dume]{3}\s*)+ 匹配字符串 ”tweedledum tweedledee”, 得到的的子组捕获结果是 ”tweedledee”。然而,如果是嵌套的捕获子组, 相应的捕获值可能会被设置到之前的迭代中。 比如, /(a|(b))+/ 匹配字符串 ”aba”, 第二个捕获子组得到的结果会是 ”b”。译注:以例子说明, b 是第二个子组最后一次捕获到的结果,所以, 第二个子组最后结果是 b, 这是符合”然而”之前描述的规则的。

阅读全文 »

PCRE 正则语法 一次性子组

发表日期:2021-07-01 08:57:01 | 来源: | 分类:PCRE 正则语法

一次性子组

对于同时有最大值和最小值量词限制的重复项, 在匹配失败后, 紧接着会以另外一个重复次数重新评估是否能使模式匹配。 当模式的作者明确知道执行上没有问题时, 通过改变匹配的行为或者使其更早的匹配失败以阻止这种行为是很有用的。

考虑一个例子,模式 \d+foo 应用到目标行 123456bar 时:

在匹配了 6 个数字后匹配 ”foo” 时失败,通常的行为时匹配器尝试使 \d+ 只匹配 5 个数字, 只匹配 4 个数字,在最终失败之前依次进行尝试。 一次性子组提供了一种特殊的意义, 当模式的一部分得到匹配后,不再对其进行重新评估, 因此匹配器在第一次匹配 ”foo” 失败后就能立刻失败。语法符号是另外一种特殊的括号, 以 (?> 开始,比如 (?>\d+)bar

这种括号对模式的一部分提供了”锁定”,当它包含一个匹配之后, 会阻止未来模式失败后对它内部的后向回溯。后向回溯在这里失效, 其他工作照常进行。

换一种说法,如果在目标字符串中当前匹配点是锚点, 这种类型的子组匹配的字符串等同于一个独立的模式匹配。

一次性子组不是捕获子组。如上面的例子,简单而言, 就是尽其所能吃掉尽可能多的匹配字符。因此, 尽管 \d+ 和 \d+? 都会调整要匹配的数字的个数以便模式的其他部分匹配, (?>\d+) 却仅能匹配整个数字序列。

这个(语法)结构可以包含任意复杂度的字符, 也可以嵌套。

一次性子组可以和后瞻断言结合使用来指定在目标字符串末尾的有效匹配。 考虑当一个简单的模式比如 abcd$ 应用到一个不匹配的长字符串上。 由于匹配时从左到右处理的, PCRE会从目标中查找每一个 ”a” 然后查看是否紧接着会匹配模式的剩余部分。 如果模式是 ^.*abcd$ , 那么初始的 .* 将首先匹配整个字符串,但是当它失败后(因为紧接着不是 ”a”), 它会回溯所有的匹配,依次吐出最后 1 个字符,倒数第 2 个字符等等。 从右向左查找整个字符串中的 ”a”, 因此,我们不能很好的退出。然而, 如果模式写作 ^(?>.*)(?<=abcd) 那么它就不会回溯 .* 这一部分, 它仅仅用于匹配整个字符串。后瞻断言对字符串末尾的后四个字符做了一个测试。 如果它失败,匹配立即失败。对于长字符串, 这个模式将会带来显著的处理时间上的性能提升。

当一个模式中包含一个子组自己可以无限重复并且内部有无限重复元素时, 使用一次性子组是避免一些失败匹配消耗大量时间的唯一途径。 模式 (\D+|<\d+>)*[!?] 匹配一个不限制数目的非数字字符或由 <> 闭合的数字字符紧跟着 ! 或 ?。 当它匹配的时候,运行时快速的。然而, 如果它应用到 aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa 上将会在报告错误之前消耗很多时间。 这是因为字符串可以用于两种重复规则,并且需要为两种重复规则都分配进行尝试。 (示例的结尾使用 [!?] 而不是单个的字符, 是因为 PCRE 和 perl 都会对模式最后是一个单独字符时的快速报错有优化。 它们会记录最后需要匹配的单个字符,当它们没有出现在字符串中时快速报错。) 如果模式修改为 ((?>\D+)|<\d+>)*[!?] 就会快速得到报错。(译注: 对于这里给出的模式,当目标字符串更长的时候,消耗时间会迅速增加,慎用。)

阅读全文 »

PCRE 正则语法 句点

发表日期:2021-07-01 08:57:01 | 来源: | 分类:PCRE 正则语法

句点

在字符类外部,模式中的句点匹配目标字符串中的任意字符,包括非打印字符, 但是(默认)不包括换行符。如果设置了 PCRE_DOTALL, 句点就会匹配换行符。 句点的处理和^、$的处理没有关联,它们唯一的关系是它们都涉及到了换行符。 句点在字符类中没有任何意义。

\C可以被用于匹配单字节, 也就是说在UTF-8 模式下,句点可以匹配多字节字符。

阅读全文 »

PCRE 正则语法 断言

发表日期:2021-07-01 08:57:01 | 来源: | 分类:PCRE 正则语法

断言

一个断言就是一个对当前匹配位置之前或之后的字符的测试, 它不会实际消耗任何字符。简单的断言代码有\b、\B、 \A、 \Z、\z、 ^、$ 等,在 转义序列(反斜线) 中有描述。 更加复杂的断言以子组的方式编码。 它有两种类型: 前瞻断言(从当前位置向前测试)和后瞻断言(从当前位置向后测试)。

一个断言子组的匹配还是通过普通方式进行的, 不同在于它不会导致当前的匹配点发生改变。 前瞻断言中的正面断言(断言此匹配为真)以 ”(?=” 开始,消极断言以 ”(?!” 开头。比如, \w+(?=;) 匹配一个单词紧跟着一个分号但是匹配结果不会包含分号, foo(?!bar) 匹配所有后面没有紧跟 ”bar” 的 ”foo” 字符串。 注意一个类似的模式 (?!foo)bar 它不能用于查找之前出现所有不是 ”foo” 的 ”bar” 匹配, 它会查找到任意的 ”bar” 出现的情况, 因为 (?!foo) 这个断言在接下来三个字符时 ”bar” 的时候是永远都 true 的。 前瞻断言需要达到的就是这样的效果。

后瞻断言中的正面断言以”(?<=”开始, 消极断言以”(?<!”开始。比如, (?<!foo)bar 用于查找任何前面不是 ”foo” 的 ”bar”。 后瞻断言的内容被严格限制为只能用于匹配定长字符串。但是,如果有多个可选分支, 它们不需要拥有相同的长度。比如 (?<=bullock|donkey) 是允许的, 但是 (?<!dogs?|cats?) 将会引发一个编译期的错误。在最上级分支可以匹配不同长度的字符串是允许的。 相比较于 perl 5.005 而言,它会要求多个分支使用相同长度的字符串匹配。 (?<=ab(c|de)) 这样的断言是不允许的, 因为它单个的顶级分支可以匹配两个不同的长度, 但是它可以接受使用两个顶级分支的写法 (?<=abc|abde) 这样的断言实现, 对于每个可选分支,暂时将当前位置移动到尝试匹配的当前位置之前的固定宽度处。 如果在当前没有足够的字符就视为匹配失败。后瞻断言与一次性子组结合使用可以用来匹配字符串结尾; 一个例子就是在一次性子组上给出字符串结尾。

多个断言(任意顺序)可以同时出现。 比如 (?<=\d{3})(?<!999)foo 匹配前面有三个数字但不是 ”999” 的字符串 ”foo”。注意, 每个断言独立应用到对目标字符串该点的匹配。 首先它会检查前面的三位都是数字, 然后检查这三位不是 ”999”。 这个模式不能匹配 ”foo” 前面有三位数字然后紧跟 3 位非 999 共 6 个字符的字符串,比如, 它不匹配 ”123abcfoo”。 匹配 ”123abcfoo” 这个字符串的模式可以是 (?<=\d{3}…)(?<!999)foo

这种情况下,第一个断言查看(当前匹配点)前面的 6 个字符,检查前三个是数字, 然后第二个断言检查(当前匹配点)前三个字符不是 ”999”。

断言可以以任意复杂度嵌套。 比如 (?<=(?<!foo)bar)baz 匹配前面有 ”bar” 但是 ”bar” 前面没有 ”foo” 的 ”baz”。 另外一个模式 (?<=\d{3}...(?<!999))foo 则匹配前面有三个数字字符紧跟 3 个不是 999 的任意字符的 ”foo”。

断言子组时非捕获子组,并且不能用量词修饰, 因为对同一件事做多次断言是没有意义的.如果所有的断言都包含一个捕获子组, 那么为了在整个模式中捕获子组计数的目的,它们都会被计算在内。然而, 子字符串的捕获仅可以用于正面断言,因为对于消极的断言是没有意义的。

将断言计算在内,可以拥有的最大子组数量是 200 个。

阅读全文 »

PCRE 正则语法 条件子组

发表日期:2021-07-01 08:57:01 | 来源: | 分类:PCRE 正则语法

条件子组

可以使匹配器根据一个断言的结果, 或者之前的一个捕获子组是否匹配来条件式的匹配一个子组或者在两个可选子组中选择。 条件子组的两种语法如下:

(?(condition)yes-pattern)
(?(condition)yes-pattern|no-pattern)

如果条件满足,使用 yes-pattern,其他情况使用 no-pattern(如果指定了)。 如果有超过 2 个的可选子组,会产生给一个编译期错误。

条件一共有两种。如果在(condition)的括号内是数字组成的文本, 条件在该数字代表的(之前的)子组得到匹配时满足(即使用 yes-pattern)。 考虑下面的模式, 为了使其易于阅读其中增加了一些空白字符(查看PCRE_EXTENDED 选项)并且将其分为三个部分:

( \( )?    [^()]+    (?(1) \) )

模式的第一部分匹配一个可选的左括号,并且如果该字符出现, 设置其为第一个子组的捕获子串。第二部分匹配一个或多个非括号字符。 第三部分是一个条件子组,它会测试第一个子组是否匹配,如果匹配到了, 也就是说目标字符串以左括号开始,条件为true, 那么使用 yes-pattern 也就是这里需要匹配一个右括号。其他情况下, 既然 no-pattern 没有出现,这个子组就不匹配任何东西。换句话说, 这个模式匹配一个没有括号的或者闭合括号包裹的字符序列。

如果条件式字符串 (R),它在得到对模式或子模式的递归调用时满足。 在”最上级”,条件总是false。

如果条件不是数字序列或(R),它就必须是一个断言。这里的断言可以使任意的,积极, 消极,正向,后向都是可以的。考虑这个模式, 同样为了方便阅读, 增加了一些空白字符,并且在第二行有两个可选路径。

(?(?=[^a-z]*[a-z])
\d{2}-[a-z]{3}-\d{2}  |  \d{2}-\d{2}-\d{2} )

条件式一个正向积极断言,匹配一个可选的非小写字母字符序列紧接着一个小写字母。 换一种说法,它测试目标中至少出现一个小写字母,如果小写字母发现, 目标匹配第一个可选分支,其他情况下它匹配第二个分支。 这个模式匹配两种格式的字符串:dd-aaa-dd 或 dd-dd-dd。aaa 代表小写字母, dd 是数字。

阅读全文 »

全部博文(1580)
集速网 copyRight © 2015-2022 宁ICP备15000399号-1 宁公网安备 64010402001209号
与其临渊羡鱼,不如退而结网
欢迎转载、分享、引用、推荐、收藏。