2 字符串
在大多数的情况下,API所支持模式匹配的基本形式是匹配字符串,如果正则表达式是foo
,输入的字符串也是 foo,这个匹配将会是成功的,因为这两个字符串是相同的。试着用测试用具来测试一下:
Enter your regex: foo Enter input string to search: foo I found the text "foo" starting at index 0 and ending at index 3.
结果确实是成功的。注意当输入的字符串是 3 个字符长度的时候,开始的索引是 0,结束的索引是 3。这个是约定俗成的,范围包括开始的索引,不包括结束的索引,如下图所示:
图 1 字符串“foo”的单元格编号和索引值[4]
字符串中的每一个字符位于其自身的单元格(cell)中,在每个单元格之间有索引指示位。字符串“foo”始于索引 0 处,止于索引 3 处,即使是这些字符它们自己仅占据了 0、1 和 2 号单元格。
就子序列匹配而言,你会注意到一些重叠,下一次匹配开始索引与前一次匹配的结束索引是相同的:
Enter your regex: foo Enter input string to search: foofoofoo I found the text "foo" starting at index 0 and ending at index 3. I found the text "foo" starting at index 3 and ending at index 6. I found the text "foo" starting at index 6 and ending at index 9.
2.1 元字符
API 也支持许多可以影响模式匹配的特殊字符。把正则表达式改为cat.
并输入字符串“cats”,输出如下所示:
Enter your regex: cat. Enter input string to search: cats I found the text "cats" starting at index 0 and ending at index 4.
虽然在输入的字符串中没有点(.),但这个匹配仍然是成功的。这是由于点(.
)是一个元字符(metacharacters)(被这个匹配翻译成了具有特殊意义的字符了)。这个例子为什么能匹配成功的原因在于,元字符.
指的是“任意字符”。
API 所支持的元字符有:(
[
{
\
^
-
$
|
}
]
)
?
*
+
.
注意:在学习过更多的如何构建正则表达式后,你会碰到这些情况:上面的这些特殊字符不应该被处理为元字符。然而也能够使用这个清单来检查一个特殊的字符是否会被认为是元字符。例如,字符 !、@ 和 # 决不会有特殊的意义。
有两种方法可以强制将元字符处理成为普通字符:
1. 在元字符前加上反斜线(\
);
2. 把它放在\Q
(引用开始)和\E
(引用结束)之间[5]。在使用这种技术时,\Q
和\E
能被放于表达式中的任何位置(假设先出现\Q
[6])