正则表达式

正则表达式的一些基础语法

介绍

  1. 正则表达式是一种字符串查找以及替换的操作方式。被广泛用于:
    1. 检查文本中是否含有指定的特征词
    2. 找出文中匹配特征词的位置
    3. 从文本中提取信息,比如:字符串的子串
    4. 修改文本

语法

  1. 字符:a b c d 1 2 3 4 etc.
  2. 字符类: . [abc] [a-z] \d \w \s
    1. . 任何字符
    2. \d 数字
    3. \w 字母[0-9A-Za-z_]
    4. \s 空格、制表符、回车、换行符
    5. 否定字符类: [^abc] \D \W \S
  3. 重复:{4} {3,16} {1,} ? * +
    1. ? 零次或一次
    2. * 大于零次
    3. + 表示一次或一次以上
    4. 如果不加上 ? ,所有的重复都是最长匹配
  4. 分组:(Septem|Octo|Novem|Decem)ber
  5. 词,行以及文本的分隔:\b ^ $ \A \z
  6. 转义字符: \1 \2 \3 etc. (在匹配表达式和替换表达式中都可用)
  7. 元字符:. \ [ ] { } ? * + | ( ) ^ $
  8. 在字符类中使用元字符:[ ] \ - ^
  9. 使用反斜杠可以忽略元字符:\