# 正则表达式


## 元字符

正则表达式由正则字符(如字母、逗号、数字)和元字符(如星号、圆括号)构成。


| 元字符 | 说明                                            | 反义       | 说明                                       |
| --     | --                                              | --         | --                                         |
| `.`    | 匹配除换行以外的任意字符                        |            |                                            |
| `[ ]`  | 定义一个字符集合,匹配该集合中的一个字符         |            |                                            |
| `-`    | 在字符集合中定义一个区间,例如[a-zA-Z]           |            |                                            |
| `\`    | 对下一个字符转义,比如表示换行                   |            |                                            |
| `\w`   | 匹配字母或数字或下划线或汉字                    | `\W`       | 匹配任意不是字母，数字，下划线，汉字的字符 |
| `\s`   | 匹配任意的空白符                                | `\S`       | 匹配任意不是空白符的字符                   |
| `\d`   | 匹配数字                                        | `\D`       | 匹配任意非数字的字符                       |
| `\b`   | 匹配单词的开始或结束                            | `\B`       | 匹配不是单词开头或结束的位置               |
| `^`    | 匹配字符串的开始                                |            |                                            |
| `$`    | 匹配字符串的结束                                |            |                                            |
| `*`    | `*`前边的内容可重复任意次以使整个表达式得到匹配 |            |                                            |
| `.*`   | 匹配任意数量的不包含换行的字符                  |            |                                            |
|        |                                                 | `[^aeiou]` | 匹配除了aeiou这几个字母以外的任意字符      |


----
例:
1. 要求填写的QQ号必须为5位到12位数字
    `^\d{5,12}$`
    `{5,12}` 表示重复的次数不能少于5次，不能多于12次，否则都不匹配。
    
2. 字符转义：由于元字符会被解释为特殊含义, 所以在查找元字符时必须加上转义字符，去掉它们的特殊含义.
    `deerchao\.net` 匹配 `deerchao.net`
    `C:\\Windows` 匹配 `C:\Windows`
    
3. 匹配一个hi开头,以Luch结尾的单词
    `\bhi\b.*\bLucy\b`
    
4. 以0开头，然后是两个数字，然后是一个连字号“-”，最后是8个数字
    `^0\d{2}-\d{8}`
    `\d` 是一个元字符，匹配一位数字(`0, 或1, 或2, 或其他数字`)
    `-` 不是元字符，只匹配它本身
    `\d` 后面的`{2}` 或 `{8}` 表示 `\d` 必须连续重复匹配2次或8次.
    
5. 匹配1个或更多连续的数字
    `\d+`
    `+` 是和 `*` 类似的元字符, 不同的是 `*` 匹配重复任意次(可能是0次), 而 `+` 则匹配重复1次或更多次.
    
6. 匹配刚好6个字符的单词
    `\b\w{6}\b`
----


## 常用的限定符                       
| 限定符  | 说明             |
| --      | --               |
| `*`     | 重复零次或更多次 |
| `+`     | 重复一次或更多次 |
| `?`     | 重复零次或一次   |
| `{n}`   | 重复n次          |
| `{n,}`  | 重复n次或更多次  |
| `{n,m}` | 重复n到m次       |

例:
    `\(?0\d{2}[) -]?\d{8}`

  这个表达式可以匹配几种格式的电话号码.
  首先左括号`(`出现0次或者1次, 然后是一个0, 紧跟2个数字.
  然后是右括号`)`或者`-`出现零次或者一次, 最后再跟8个数字.
  可以匹配如下格式:

    (010)88886666    022-22334455    02912345678
    但是同样可以匹配  010)12345678或(022-87654321这样的“不正确”的格式
    为了解决这个问题，需要用到分支条件.

## 分支条件

  用 `|` 把不同的规则分隔开
  例如: `0\d{2}-\d{8}|0\d{3}-\d{7}`

    这个表达式能匹配两种以连字号分隔的电话号码:
    一种是3位区号，8位本地号(如010-12345678)
    一种是4位区号, 7位本地号(如0376-2233445)

  `\d{5}-\d{4}|\d{5}`

    用于匹配美国的邮政编码, 美国邮编的规则是5位数字，或者用连字号间隔的9位数字.
    使用分支条件时, 要注意各个条件的顺序.

  如果你把它改成`\d{5}|\d{5}-\d{4}`的话，那么就只会匹配5位的邮编,以及9位邮编的前5位.
  原因是匹配分枝条件时, 将会从左到右地测试每个条件，如果满足了某个分枝的话, 就不会去再测试其它条件.


## 分组

  `(\d{1,3}\.){3}\d{1,3}` 可用来匹配IPV4地址.
  其中`(\d{1,3}\.)`这个分组重复了三次, 用小括号指定子表达式.

    但是这个表达式却可以匹配256.300.888.999这种错误的IP地址。

  用字符类来改善错误的IP地址匹配:
  `((2[0-4]\d|25[0-5]|[0 1]?\d?\d)\.){3}(2[0-4]\d|25[0-5]|[0 1]?\d?\d)`


## 后向引用

  使用小括号指定一个子表达式后，匹配这个子表达式的文本(也就是此分组捕获的内容)
  可以在表达式或其它程序中作进一步的处理.
  后向引用用于重复搜索前面某个分组匹配的文本。例如，\1代表分组1匹配的文本

  可以自己指定子表达式的组名。要指定一个子表达式的组名，请使用这样的语法：
  `(?<Word>表达式)`  (或者把尖括号换成 `'` 也行: `(?'Word'\w+)` ),
  这样就把表达式匹配的组名指定为Word了. 引用该组时，可以用使用\k<Word>

  例:
    `(?<word>\d-\d{2})\s+\k<word>`
    word表示`\d-\d{2}`这个分组的名称叫word
    上式其实表示`\k<word>\s+\k<word>`
    即：`\d-\d{2}\s+\d-\d{2}`  查找类似于2-15 2-15这样重复出现两次的格式


## 常用分组语法

| Type     | Syntax       | Description                                                          |
| --       | --           | --                                                                   |
| 捕获     | (exp)        | 匹配exp,并捕获文本到自动命名的组里                                   |
|          | (?<name>exp) | 匹配exp,并捕获文本到名称为name的组里,也可以写成(?'name'exp)          |
|          | (?:exp)      | 匹配exp,不捕获匹配的文本，也不给此分组分配组号                       |
|----------|--------------|----------------------------------------------------------------------|
| 零宽断言 | (?=exp)      | 匹配exp前面的位置                                                    |
|          | (?<=exp)     | 匹配exp后面的位置                                                    |
|          | (?!exp)      | 匹配后面跟的不是exp的位置                                            |
|          | (?<!exp)     | 匹配前面不是exp的位置                                                |
|----------|--------------|----------------------------------------------------------------------|
| 注释     | (?#comment)  | 这种类型的分组不对正则表达式的处理产生任何影响，用于提供注释让人阅读 |


> 注:
>     零宽断言：(英文原文为 Lookarounds), 用于确定一个位置，就像 `^`  `\b`  `$` 一样.


## 字符集和类

  字符类是系统预先定义的一些特殊字符集

  例：
1. `[a-zA-Z]`   表示匹配任意一个字母
2. `[0-9\*\+]`  表示匹配 数字,星号,加好中的任意一个
3. `[A-Z][0-9]` 表示匹配一个有一个大写字母和一位数字组成的字符串，如A1.
4. `[^a-z]`     表示匹配任意一个除小写字母之外的字符


| 字符类         | 说明                                    |
| --             | --                                      |
| `[[:alpha:]]`  | 小写及大写字母，等价于[a-zA-Z]          |
| `[[:alnum:]]`  | 小写和大写字母及数字，等价于[a-zA-Z0-9] |
| `[[:cntrl:]]`  | 控制字符，如制表符(Tab)、换行符或反斜线 |
| `[[:digit:]]`  | 数字0~9，等价于[0-9]                    |
| `[[:graph:]]`  | ASCII码在33~126之间可打印的字符         |
| `[[:lower:]]`  | 小写字母，等价于[a-z]                   |
| `[[:punct:]]`  | 标点符号..............                  |
| `[[:upper:]]`  | 大写字母，等价于[A-Z]                   |
| `[[:space:]]`  | 空白字符，                              |
| `[[:xdigit:]]` | 16进制字符，等价于[a-fA-F0-9]           |