使用re模块进行正则操作
import re
.match(pattern,string,flags=0)
从起始位置开始匹配,匹配不成功则返回None
.search(pattern,string,flags=0)
返回第一个成功的匹配
.findall(pattern,string,pos=0,endpos=len(string))
找到所有成功的匹配,并返回一个列表
.finditer(pattern,string,flags=0)
找到所有成功的匹配,并返回一个迭代器
.split(pattern,string,maxsplit=0,flags=0)
按照成功的匹配分割字符串,并返回一个列表
.compile(pattern,flags)
编译正则表达式,返回正则表达式对象[以便多次使用]
.sub(pattern,repl,string,count=0,flags=0))
找到所有成功的匹配,并将匹配的内容替换,返回字符串
参数 | 说明 |
---|---|
pattern | 正则表达式 |
string | 要匹配的字符串 |
flags | 标志位,用于控制正则表达式的匹配方式 |
pos | 可选参数,指定字符串的起始位置 |
endpos | 可选参数,指定字符串的结束位置 |
maxsplit | 分隔次数,0为不限次数 |
repl | 替换成的内容 |
修饰符-可选标志
修饰符 | 说明 |
---|---|
re.I | 使匹配对大小写不敏感 |
re.L | 做本地化识别(locale-aware)匹配 |
re.M | 多行匹配,影响 ^ 和 $ |
re.S | 使 . 匹配包括换行在内的所有字符 |
re.U | 根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B. |
re.X | 该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。 |
特殊字符
字符 | 说明 |
---|---|
\cx | 匹配由x指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符 |
\f | 匹配一个换页符 |
\n | 匹配一个换行符 |
\r | 匹配一个回车符 |
\s | 匹配任何空白字符,包括空格、制表符、换页符等等 |
\S | 匹配任何非空白字符 |
\t | 匹配一个制表符 |
\v | 匹配一个垂直制表符 |
\d | 匹配任意数字,等价于 [0-9] |
\D | 匹配任意非数字 |
\w | 匹配字母数字及下划线 |
\W | 匹配非字母数字及下划线 |
\A | 匹配字符串开始 |
\Z | 匹配字符串结束,如果是存在换行,只匹配到换行前的结束字符串 |
\z | 匹配字符串结束 |
\G | 匹配最后匹配完成的位置 |
\b | 匹配一个单词边界,也就是指单词和空格间的位置。如“mortor”中的第二个“or” |
\B | 匹配非单词边界。如“mortor”中的第一个“or” |
特殊符号
特殊字符 | 说明 |
---|---|
$ |
匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则$ 也匹配\n 或\r 。要匹配$ 字符本身,请使用\$ 。 |
() |
标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 \( 和 \) 。 |
* |
匹配前面的子表达式零次或多次。要匹配 * 字符,请使用 \* 。 |
+ |
匹配前面的子表达式一次或多次。要匹配 + 字符,请使用 \+ 。 |
. |
匹配除换行符 \n之外的任何单字符。要匹配. ,请使用 \. 。 |
[] |
标记一个中括号表达式的开始和结束,匹配,中括号中的任意字符。要匹配 [,请使用 \[ 和\] 。 |
? |
匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。要匹配 ? 字符,请使用 \? 。 |
\ |
将下一个字符标记为或特殊字符,或原义字符,或向后引用,或八进制转义符。例如:n匹配字符n。\n 匹配换行符。序列\\ 匹配\ 。 |
^ |
匹配输入字符串的开始位置。在方括号表达式中使用,表示对该字符集合取反。要匹配 ^ 字符本身,请使用 \^ 。 |
{} |
标记限定符表达式的开始和结束。要匹配 {},请使用 \{ 和\} 。 |
| |
匹配| 前后的任意一项。要匹配 | 请使用\| |
限定符
字符 | 说明 |
---|---|
* |
匹配前面的子表达式零次或多次。例如,牛*批 能匹配 牛 以及 牛批批批 。* 等价于{0,}。 |
+ |
匹配前面的子表达式一次或多次。例如,牛*批 能匹配 牛批 以及 牛批批批 ,但不能匹配 牛 。+ 等价于 {1,}。 |
? |
匹配前面的子表达式零次或一次。例如,流批? 可以匹配流 、流批 。? 等价于 {0,1}。 |
{n} |
n 是一个非负整数。匹配确定的 n 次。 |
{n,} |
n 是一个非负整数。至少匹配n 次。 |
{n,m} |
m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。 |
定位符
注意:不能将限定符与定位点一起使用。
定位符即用于标定位置的字符:^
,$
,\b
,\B
。
贪婪和非贪婪
贪婪总是试图匹配尽可能多的字符。
非贪婪总是试图匹配尽可能少的字符。
Python中默认贪婪
在*
,.
,?
,+
,{m,n}
后面加上?
就可以使贪婪变成非贪婪