blog:regexp:regexp

正则表达式由正则字符(如字母、逗号、数字)和元字符(如星号、圆括号)构成。

例: 1. 要求填写的QQ号必须为5位到12位数字

  `^\d{5,12}$`
  `{5,12}` 表示重复的次数不能少于5次，不能多于12次，否则都不匹配。

2. 字符转义：由于元字符会被解释为特殊含义, 所以在查找元字符时必须加上转义字符，去掉它们的特殊含义.

  `deerchao\.net` 匹配 `deerchao.net`
  `C:\\Windows` 匹配 `C:\Windows`

3. 匹配一个hi开头,以Luch结尾的单词

  `\bhi\b.*\bLucy\b`

4. 以0开头，然后是两个数字，然后是一个连字号“-”，最后是8个数字

  `^0\d{2}-\d{8}`
  `\d` 是一个元字符，匹配一位数字(`0, 或1, 或2, 或其他数字`)
  `-` 不是元字符，只匹配它本身
  `\d` 后面的`{2}` 或 `{8}` 表示 `\d` 必须连续重复匹配2次或8次.

5. 匹配1个或更多连续的数字

  `\d+`
  `+` 是和 `*` 类似的元字符, 不同的是 `*` 匹配重复任意次(可能是0次), 而 `+` 则匹配重复1次或更多次.

6. 匹配刚好6个字符的单词

  `\b\w{6}\b`

—-

例:

  `\(?0\d{2}[) -]?\d{8}`

这个表达式可以匹配几种格式的电话号码.
首先左括号`(`出现0次或者1次, 然后是一个0, 紧跟2个数字.
然后是右括号`)`或者`-`出现零次或者一次, 最后再跟8个数字.
可以匹配如下格式:

  (010)88886666    022-22334455    02912345678
  但是同样可以匹配  010)12345678或(022-87654321这样的“不正确”的格式
  为了解决这个问题，需要用到分支条件.

用 `|` 把不同的规则分隔开
例如: `0\d{2}-\d{8}|0\d{3}-\d{7}`

  这个表达式能匹配两种以连字号分隔的电话号码:
  一种是3位区号，8位本地号(如010-12345678)
  一种是4位区号, 7位本地号(如0376-2233445)

`\d{5}-\d{4}|\d{5}`

  用于匹配美国的邮政编码, 美国邮编的规则是5位数字，或者用连字号间隔的9位数字.
  使用分支条件时, 要注意各个条件的顺序.

如果你把它改成`\d{5}|\d{5}-\d{4}`的话，那么就只会匹配5位的邮编,以及9位邮编的前5位.
原因是匹配分枝条件时, 将会从左到右地测试每个条件，如果满足了某个分枝的话, 就不会去再测试其它条件.

`(\d{1,3}\.){3}\d{1,3}` 可用来匹配IPV4地址.
其中`(\d{1,3}\.)`这个分组重复了三次, 用小括号指定子表达式.

  但是这个表达式却可以匹配256.300.888.999这种错误的IP地址。

用字符类来改善错误的IP地址匹配:
`((2[0-4]\d|25[0-5]|[0 1]?\d?\d)\.){3}(2[0-4]\d|25[0-5]|[0 1]?\d?\d)`

使用小括号指定一个子表达式后，匹配这个子表达式的文本(也就是此分组捕获的内容)
可以在表达式或其它程序中作进一步的处理.
后向引用用于重复搜索前面某个分组匹配的文本。例如，\1代表分组1匹配的文本

可以自己指定子表达式的组名。要指定一个子表达式的组名，请使用这样的语法：
`(?<Word>表达式)`  (或者把尖括号换成 `'` 也行: `(?'Word'\w+)` ),
这样就把表达式匹配的组名指定为Word了. 引用该组时，可以用使用\k<Word>

例:
  `(?<word>\d-\d{2})\s+\k<word>`
  word表示`\d-\d{2}`这个分组的名称叫word
  上式其实表示`\k<word>\s+\k<word>`
  即：`\d-\d{2}\s+\d-\d{2}`  查找类似于2-15 2-15这样重复出现两次的格式

Type	Syntax	Description
–	–	–
捕获	(exp)	匹配exp,并捕获文本到自动命名的组里
	(?<name>exp)	匹配exp,并捕获文本到名称为name的组里,也可以写成(?'name'exp)
	(?:exp)	匹配exp,不捕获匹配的文本，也不给此分组分配组号
———-	————–	———————————————————————-
零宽断言	(?=exp)	匹配exp前面的位置
	(?⇐exp)	匹配exp后面的位置
	(?!exp)	匹配后面跟的不是exp的位置
	(?<!exp)	匹配前面不是exp的位置
———-	————–	———————————————————————-
注释	(?#comment)	这种类型的分组不对正则表达式的处理产生任何影响，用于提供注释让人阅读

注: 零宽断言：(英文原文为 Lookarounds), 用于确定一个位置，就像 `^` `\b` `$` 一样.

字符类是系统预先定义的一些特殊字符集

例：

1. [a-zA-Z] 表示匹配任意一个字母 2. [0-9\*\+] 表示匹配数字,星号,加好中的任意一个 3. [A-Z][0-9] 表示匹配一个有一个大写字母和一位数字组成的字符串，如A1. 4. [^a-z]

 表示匹配任意一个除小写字母之外的字符

正则表达式