在PHP中使用与Perl兼容的正则表达式

时间：2007-03-03 来源：lib

在PHP中使用与Perl兼容的正则表达式

1 前言

PHP被大量的应用于Web的后台CGI开发，通常是在用户数据数据之后得出某种结果，但是如果用户输入的数据不正确，就会出现问题，比如说某人的生日是 "2月30日"！那应该怎么样来检验暑假是否正确呢？在PHP中加入了正则表达式的支持，让我们可以十分方便的进行数据匹配。

2 什么是正则表达式：
简单的说，正则表达式是一种可以用于模式匹配和替换的强大工具。在几乎所有的基于UNIX/LINUX系统的软件工具中找到正则表达式的痕迹，例如： Perl或PHP脚本语言。此外，JavaScript这种客户端的脚本语言也提供了对正则表达式的支持，现在正则表达式已经成为了一个通用的概念和工具，被各类技术人员所广泛使用。
在某个Linux网站上面有这样的话：如果你问一下Linux爱好者最喜欢什么，他可能会回答正则表达式；如果你问他最害怕什么，除了繁琐的安装配置外他肯定会说正则表达式。
正如上面说的，正则表达式看起来非常复杂，让人害怕，大多数的PHP初学者都会跳过这里，继续下面的学习，但是PHP中的正则表达式有着可以利用模式匹配找到符合条件的字符串、判断字符串是否合乎条件或者用指定的字符串来替代符合条件的字符串等强大的功能，不学实在太可惜了……

3 正则表达式的基本语法：
一个正则表达式，分为三个部分：分隔符，表达式和修饰符。
分隔符可以是除了特殊字符以外的任何字符（比如"/
!"等等），常用的分隔符是"/"。表达式由一些特殊字符（特殊字符详见下面）和非特殊的字符串组成，比如"[a-z0-9_-]+@[a-z0-9_
-.]+"可以匹配一个简单的电子邮件字符串。修饰符是用来开启或者关闭某种功能/模式。下面就是一个完整的正则表达式的例子：
/hello.+?hello/is
上面的正则表达式"/"就是分隔符，两个"/"之间的就是表达式，第二个"/"后面的字符串"is"就是修饰符。
在表达式中如果含有分隔符，那么就需要使用转义符号"\"，比如"/hello.+?\/hello/is"。转义符号除了用于分隔符外还可以执行特殊字符，全部由字母构成的特殊字符都需要"\"来转义，比如"\d"代表全体数字。

4 正则表达式的特殊字符：
正则表达式中的特殊字符分为元字符、定位字符等等。
元字符是正则表达式中一类有特殊意义的字符，用来描述其前导字符（即元字符前面的字符）在被匹配的对象中出现的方式。元字符本身是一个个单一的字符，但是不同或者相同的元字符组合起来可以构成大的元字符。
■元字符：
◆大括号：大括号用来精确指定匹配元字符出现的次数，例如"/pre{1,5}/"表示匹配的对象可以是"pre"、"pree"、"preeeee"这样在"pr"后面出现1个到5个"e"的字符串。或者"/pre{,5}/"代表pre出现0此到5次之间。
◆加号："+"字符用来匹配元字符前的字符出现一次或者多次。例如"/ac+/"表示被匹配的对象可以是"act"、"account"、"acccc"等在"a"后面出现一个或者多个"c"的字符串。"+"相当于"{1,}"。
◆星号："*"字符用来匹配元字符前的字符出现零次或者多次。例如"/ac*/"表示被匹配的对象可以是"app"、"acp"、"accp"等在"a"后面出现零个或者多个"c"的字符串。"*"相当于"{0,}"。
◆问号："?"字符用来匹配元字符前的字符出现零次或者1次。例如"/ac?/"表示匹配的对象可以是"a"、"acp"、"acwp"这样在"a"后面出现零个或者1个"c"的字符串。"?"在正则表达式中还有一个非常重要的作用，即"贪婪模式"。

   ◆[] 任何包含在[]中的内容都是一个字符类--一个被匹配字符所属的字符集合。他们可以匹配"[]"之中出现过的字符，比如"/[az]/"可以匹配单个字符"a"或者"z"；如果把上面的表达式改成这样"/[a-z]/"，就可以匹配任何单个小写字母，比如"a"、"b"等等。
注:方括号中的表达式只匹配一个字符.

如果在"[]"中出现了"^"，代表本表达式不匹配"[]"内出现的字符，比如"/[^a-z]/"不匹配任何小写字母！并且正则表达式给出了
几种"[]"的默认值：
[:alpha:]：匹配任何字母
[:alnum:]：匹配任何字母和数字
[:digit:]：匹配任何数字
[:space:]：匹配空格符
[:upper:]：匹配任何大写字母
[:lower:]：匹配任何小写字母
[:punct:]：匹配任何标点符号
[:xdigit:]：匹配任何16进制数字

另外下面这些特殊字符在转义符号"\"转义后代表的含义如下：(更多参看手册)
s：匹配单个的空格符
S：用于匹配除单个空格符之外的所有字符。
d：用于匹配从0到9的数字，相当于"/[0-9]/"。
w：用于匹配字母，数字或下划线字符，相当于"/[a-zA-Z0-9_]/"。
W：用于匹配所有与w不匹配的字符，相当于"/[^a-zA-Z0-9_]/"。
D：用于匹配任何非10进制的数字字符。
.：用于匹配除换行符之外的所有字符，如果经过修饰符"s"的修饰，"."可以代表任意字符。

利用上面的特殊字符可以很方便的表达一些比较繁琐的模式匹配。例如"/\d0000/"利用上面的正则表达式可以匹配万以上，十万一下的整数字符串。

■定位字符：
定位字符是正则表达式中又一类非常重要的字符，它的主要作用是用于对字符在匹配对象中的位置进行描述。
◆^：表示匹配的模式出现在匹配对象的开头（和在"[]"里面不同）
◆$：表示匹配的模式出现在匹配对象的末尾
◆空格：表示匹配的模式出现在开始和结尾的两个边界之一
"/^he/"：可以匹配以"he"字符开头的字符串，比如hello、height等等；
"/he$/"：可以匹配以"he"字符结尾的字符串即she等；
"/ he/"：空格开头，和^的作用一样，匹配以he开头的字符串；
"/he /"：空格结束，和$的作用一样，匹配以he结尾的字符串；
"/^he$/"：表示只和字符串"he"匹配。

◆括号：
正则表达式除了可以用户匹配，还可以用括号"()"来记录需要的信息，储存起来，给后面的表达式读取。比如：
/^([a-zA-Z0-9_-]+)@([a-zA-Z0-9_-]+)(.[a-zA-Z0-9_-])+$/
就是记录邮件地址的用户名，和邮件地址的服务器地址（形式为[email protected]之类的），在后面如果想要读取记录下来的字符串，只是需要用"转义符＋记录的次序"来读取。比如"\\1"就相当于第一个"[a-zA-Z0-9_-]+ "，"\\2"相当于第二个([a-zA-Z0-9_-]+)，"\\3"就是第三个(.[a-zA-Z0-9_-])。但是在PHP中，"\"是一个特殊的字符，需要转义，所以"\1"到了PHP的表达式中就应该写成"\\\\1"。
■其他特殊符号：
◆"|"：或符号"|"和PHP里面的或一样，不过是一个"|"，而不是PHP的两个"||"！意思就是可以是某个字符或者另一个字符串，比如"/abcd|dcba/"可能匹配"abcd"或者"dcba"。

5 贪婪模式：
前面在元字符中提到过"?"还有一个重要的作用，即"贪婪模式"，什么是"贪婪模式"呢？
比如我们要匹配以字母"a"开头字母"b"结尾的字符串，但是需要匹配的字符串在"a"后面含有很多个"b"，比如"a bbbbbbbbbbbbbbbbb"，那正则表达式是会匹配第一个"b"还是最后一个"b"呢？如果你使用了贪婪模式，那么会匹配到最后一个"b"，反之只是匹配到第一个"b"。
使用贪婪模式的表达式如下：
/a.+?b/
/a.+b/U
不使用贪婪模式的如下：
/a.+b/
上面使用了一个修饰符U，详见下面的部分。

6 修饰符：
在正则表达式里面的修饰符可以改变正则的很多特性，使得正则表达式更加适合你的需要（注意：修饰符对于大小写是敏感的，这意味着"e"并不等于"E"）。正则表达式里面的修饰符如下：
i：如果在修饰符中加上"i"，则正则将会取消大小写敏感性，即"a"和"A" 是一样的。
m：默认的正则开始"^"和结束"$"只是对于正则字符串如果在修饰符中加上"m"，那么开始和结束将会指字符串的每一行：每一行的开头就是"^"，结尾就是"$"。
s：如果在修饰符中加入"s"，那么默认的"."代表除了换行符以外的任何字符将会变成任意字符，也就是包括换行符！
x：如果加上该修饰符，表达式中的空白字符将会被忽略，除非它已经被转义。
e：本修饰符仅仅对于replacement有用，代表在replacement中作为PHP代码。
A：如果使用这个修饰符，那么表达式必须是匹配的字符串中的开头部分。比如说"/a/A"匹配"abcd"。
E：与"m"相反，如果使用这个修饰符，那么"$"将匹配绝对字符串的结尾，而不是换行符前面，默认就打开了这个模式。
U：和问号的作用差不多，用于设置"贪婪模式"。

7
PCRE相关的正则表达式函数：
PHP的Perl兼容正则表达式提供的多个函数，分为模式匹配，替换和匹配数目等等：
1、preg_match ：
函数格式：int preg_match(string pattern, string subject, array [matches]);
这个函数会在string中使用pattern表达式来匹配，如果给定了[regs]，就会将string记录到[regs][0]中，[regs][1] 代表使用括号"（）"记录下来的第一个字符串，[regs][2]代表记录下来的第二个字符串，以此类推。preg如果在string中找到了匹配的 pattern，就会返回"true"，否则返回"false"。

2、preg_replace ：
函数格式：mixed preg_replace(mixed pattern, mixed replacement, mixed subject);
这个函数会使用将string中符合表达式pattern的字符串全部替换为表达式replacement。如果replacement中需要包含pattern的部分字符，则可以使用"()"来记录，在replacement中只是需要用"\\1"来读取。

3、preg_split ：
函数格式：array preg_split(string pattern, string subject, int [limit]);
这个函数和函数split一样，区别仅在与split可以使用简单正则表达式来分割匹配的字符串，而preg_split使用完全的Perl兼容正则表达式。第三个参数limit代表允许返回多少个符合条件的值。

4、preg_grep ：
函数格式：array preg_grep(string patern , array input);
这个函数和preg_match功能基本上，不过preg_grep可以将给定的数组input中的所有元素匹配，返回一个新的数组。

下面举一个例子，比如我们要检查Email地址的格式是否正确：



  function emailIsRight($email) {
  if (preg_match("^[_\.0-9a-z-]+@([0-9a-z][0-9a-z-]+\.)+[a-z]{2,3}$",
  $email)) {
  return 1;
  }
  return 0;
  }
  if (emailIsRight(\'[email protected]\'))
  echo \'正确
\';
  if (!emailIsRight(\'y10k@fffff\'))
  echo \'不正确
\';
  ?>


上面的程序会输出"正确
不正确"。

8 PHP中的Perl兼容正则表达式和Perl/Ereg正则表达式的区别：
虽然叫做“Perl兼容正则表达式”，但是和Perl的正则表达式相比，PHP的还是由一些不同，比如修饰符“G”在Perl里面代表全部匹配，但是在PHP中没有加入对这个修饰符的支持。
还有就是和ereg系列函数的区别，ereg也是PHP中提供的正则表达式函数，不过和preg相比，要弱上很多。
1、ereg里面是不需要也不能使用分隔符和修饰符的，所以ereg的功能比preg要弱上不少。
2、关于"."：点在正则里面一般是除了换行符以外的全部字符，但是在ereg里面的"."是任意字符，即包括换行符！如果在preg里面希望"."能够包括换行符，可以在修饰符中加上"s"。
3、ereg默认使用贪婪模式，并且不能修改，这个给很多替换和匹配带来麻烦。
4、速度：这个或许是很多人关心的问题，会不会preg功能强大是以速度来换取的？不用担心，preg的速度要远远比ereg快，笔者做了一个程序测试：



  echo
  "Preg_replace used time:";
  $start
  = time();
  for ($i=1; $i) {
  $str =
  "ssssssssssssssssssssssssssss";
  preg_replace("/s/","",$str);
  }
  $ended
  = time()-$start;
  echo $ended . "
";
  ereg_replace
  used time:";
  $start
  = time();
  for ($i=1; $i) {
  $str =
  "ssssssssssssssssssssssssssss";
  ereg_replace("s","",$str);
  }
  $ended
  = time()-$start;
  echo $ended . "
";
  str_replace
  used time:";
  $start
  = time();
  for ($i=1; $i) {
  $str =
  "sssssssssssssssssssssssssssss";
  str_replace("s","",$str);
  }
  $ended
  = time()-$start;
  echo $ended;
  ?>


结果：
Preg_replace
used time:5
ereg_replace
used time:15
str_replace
used time:2
str_replace因为不需要匹配所以速度非常快，而preg_replace的速度比ereg_replace要快上不少。

附：PHP正则表达式中的特殊字符
\             将下一个字符标记为一个特殊字符、或一个原义字符、或一个后向引用、或一个八进制转义符。例如，'n' 匹配字符
"n"。'\n' 匹配一个换行符。序列 '\' 匹配 "" 而 "\(" 则匹配 "("。
^          匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性，^ 也匹配 '\n' 或 '\r' 之后的位置。
$          匹配输入字符串的结束位置。如果设置了RegExp 对象的 Multiline 属性，$ 也匹配
'\n' 或 '\r' 之前的位置。
*          匹配前面的子表达式零次或多次。例如，zo* 能匹配 "z" 以及 "zoo"。 * 等价于{0,}。
+          匹配前面的子表达式一次或多次。例如，'zo+' 能匹配
"zo" 以及
"zoo"，但不能匹配
"z"。+ 等价于 {1,}。
?          匹配前面的子表达式零次或一次。例如，"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等价于 {0,1}。
{n}       n 是一个非负整数。匹配确定的 n 次。例如，'o{2}' 不能匹配 "Bob" 中的 'o'，但是能匹配 "food" 中的两个 o。
{n,}       n 是一个非负整数。至少匹配n 次。例如，'o{2,}' 不能匹配 "Bob" 中的 'o'，但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。
{n,m}    m 和 n 均为非负整数，其中n 。最少匹配 n 次且最多匹配 m 次。刘， "o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。
?          当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串 "oooo"，'o+?' 将匹配单个
"o"，而 'o+' 将匹配所有 'o'。
.             匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符，请使用象
'[.\n]' 的模式。
(pattern) 匹配pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到，在VBScript 中使用 SubMatches 集合，在JScript 中则使用 {CONTENT}… 属性。要匹配圆括号字符，请使用 '$' 或 '$'。
(?:pattern) 匹配 pattern 但不获取匹配结果，也就是说这是一个非获取匹配，不进行存储供以后使用。这在使用 "或" 字符 (|) 来组合一个模式的各个部分是很有用。例如， 'industr(?:y|ies) 就是一个比 'industry|industries' 更简略的表达式。
(?=pattern) 正向预查，在任何匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如， 'Windows (?=95|98|NT|2000)' 能匹配 "Windows 2000" 中的 "Windows" ，但不能匹配 "Windows 3.1" 中的 "Windows"。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。
(?!pattern) 负向预查，在任何不匹配Negative lookahead matches the search string at any point where a
string not matching pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如'Windows (?!95|98|NT|2000)' 能匹配 "Windows 3.1" 中的 "Windows"，但不能匹配 "Windows 2000" 中的 "Windows"。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始
x|y          匹配 x 或 y。例如，'z|food' 能匹配 "z" 或 "food"。'(z|f)ood' 则匹配 "zood" 或 "food"。
[xyz]       字符集合。匹配所包含的任意一个字符。例如， '[abc]' 可以匹配 "plain" 中的 'a'。
[^xyz]    负值字符集合。匹配未包含的任意字符。例如， '[^abc]' 可以匹配 "plain" 中的'p'。
[a-z]       字符范围。匹配指定范围内的任意字符。例如，'[a-z]' 可以匹配 'a' 到 'z' 范围内的任意小写字母字符。
[^a-z]    负值字符范围。匹配任何不在指定范围内的任意字符。例如，'[^a-z]' 可以匹配任何不在 'a' 到 'z' 范围内的任意字符。
\b          匹配一个单词边界，也就是指单词和空格间的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配
"verb" 中的 'er'。
\B          匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配
"never" 中的 'er'。
\cx          匹配由x指明的控制字符。例如，
\cM 匹配一个 Control-M
或回车符。 x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 'c' 字符。
\d          匹配一个数字字符。等价于 [0-9]。
\D          匹配一个非数字字符。等价于 [^0-9]。
\f          匹配一个换页符。等价于 \x0c 和 \cL。
\n          匹配一个换行符。等价于 \x0a 和 \cJ。
\r          匹配一个回车符。等价于 \x0d 和 \cM。
\s          匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S          匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t          匹配一个制表符。等价于 \x09 和 \cI。
\v          匹配一个垂直制表符。等价于 \x0b 和 \cK。
\w          匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。
\W          匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'。
\xn       匹配 n，其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如，
'\x41' 匹配
"A"。'\x041' 则等价于 '\x04' & "1"。正则表达式中可以使用 ASCII 编码。.
\num    匹配 num，其中 num 是一个正整数。对所获取的匹配的引用。例如，'(.)' 匹配两个连续的相同字符。
\n          标识一个八进制转义值或一个后向引用。如果 \n 之前至少 n 个获取的子表达式，则 n 为后向引用。否则，如果 n 为八进制数字 (0-7)，则 n 为一个八进制转义值。
\nm       标识一个八进制转义值或一个后向引用。如果 \nm 之前至少有is
preceded by at least nm 个获取得子表达式，则 nm 为后向引用。如果 \nm 之前至少有 n 个获取，则 n 为一个后跟文字 m 的后向引用。如果前面的条件都不满足，若  n 和 m 均为八进制数字 (0-7)，则 \nm 将匹配八进制转义值 nm。
\nml       如果 n 为八进制数字 (0-3)，且 m 和 l 均为八进制数字 (0-7)，则匹配八进制转义值 nml。
\un       匹配 n，其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如，\u00A9 匹配版权符号 (?)。