网站首页 > 技术文章正文

Python re模块正则表达式之compile函数

nanyue 2024-12-27 15:45:21 技术文章 4 ℃

一、应用场景

为了重复利用同一个正则对象，需要多次使用这个正则表达式的话，使用re.compile()保存这个正则对象以便复用，可以让程序更加高效。

二、使用方法

1）re.compile

re.compile(pattern[, flags])

参数：

pattern : 一个字符串形式的正则表达式
flags 可选，表示匹配模式，比如忽略大小写，多行模式等，具体参数为：

re.I 忽略大小写

re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境

re.M 多行模式

re.S 即为' . '并且包括换行符在内的任意字符（' . '不包括换行符）

re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库

re.X 为了增加可读性，忽略空格和' # '后面的注释

案例：

import re
 # 用于匹配至少一个数字
pattern = re.compile(r'\d+')                   
# 查找头部，没有匹配
m = pattern.match('one12twothree34four')        
print(m)
------------------
输出结果：
None
------------------

# 从'e'的位置开始匹配，没有匹配
m = pattern.match('one12twothree34four', 2, 10) 
print(m)
------------------
输出结果：
None
------------------

# 从'1'的位置开始匹配，正好匹配
m = pattern.match('one12twothree34four', 3, 10)
# 返回一个 Match 对象
print(m)                                        
------------------
输出结果：
<_sre.SRE_Match object at 0x10a42aac0>
------------------

 # 可省略 0
print(m.group(0))  
print(m.start(0))
print(m.end(0))
print(m.span(0))
------------------
输出结果：
'12'
3
5
(3, 5)
------------------

在上面，当匹配成功时返回一个 Match 对象，其中：

group([group1, …]) 方法用于获得一个或多个分组匹配的字符串，当要获得整个匹配的子串时，可直接使用 group() 或 group(0)；
start([group]) 方法用于获取分组匹配的子串在整个字符串中的起始位置（子串第一个字符的索引），参数默认值为 0；
end([group]) 方法用于获取分组匹配的子串在整个字符串中的结束位置（子串最后一个字符的索引+1），参数默认值为 0；
span([group]) 方法返回 (start(group), end(group))。

2）re.findall

在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果有多个匹配模式，则返回元组列表，如果没有找到匹配的，则返回空列表。

注意： match 和 search 是匹配一次 findall 匹配所有。

re.findall(pattern, string, flags=0)
或
pattern.findall(string[, pos[, endpos]])

参数：

pattern 匹配模式。
string 待匹配的字符串。
pos 可选参数，指定字符串的起始位置，默认为 0。
endpos 可选参数，指定字符串的结束位置，默认为字符串的长度。

案例：

import re
 
result1 = re.findall(r'\d+','code 123 space 456')
 
pattern = re.compile(r'\d+')   # 查找数字
result2 = pattern.findall('code 123 space 456')
result3 = pattern.findall('co88de123space456', 0, 10)
 
print(result1)
print(result2)
print(result3)
------------------
输出结果：
['123', '456']
['123', '456']
['88', '12']
------------------


result = re.findall(r'(\w+)=(\d+)', 'set width=20 and height=10')
print(result)
------------------
输出结果：
[('width', '20'), ('height', '10')]
------------------

3）re.finditer

和 findall 类似，在字符串中找到正则表达式所匹配的所有子串，并把它们作为一个迭代器返回。

re.finditer(pattern, string, flags=0)

参数	描述
pattern	匹配的正则表达式
string	要匹配的字符串。
flags	标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。参见：正则表达式修饰符 - 可选标志

案例：

it = re.finditer(r"\d+","12a32bc43jf3") 
for match in it: 
    print (match.group() )
------------------
输出结果：
12 
32 
43 
3
------------------

4）re.split

split 方法按照能够匹配的子串将字符串分割后返回列表。

re.split(pattern, string[, maxsplit=0, flags=0])

参数	描述
pattern	匹配的正则表达式
string	要匹配的字符串。
maxsplit	分割次数，maxsplit=1 分割一次，默认为 0，不限制次数。
flags	标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。参见：正则表达式修饰符 - 可选标志

案例：

import re

x = re.split('\W+', 'code_space, code_space, code_space.')
y = re.split('(\W+)', ' code_space, code_space, code_space.') 
z = re.split('\W+', ' code_space, code_space, code_space.', 1) 
# 对于一个找不到匹配的字符串而言，split 不会对其作出分割
t = re.split('a*', 'hello world')  
print(x)
print(y)
print(z)
print(t)
------------------
输出结果：
['code_space', 'code_space', 'code_space', '']
['', ' ', 'code_space', ', ', 'code_space', ', ', 'code_space', '.', '']
['', 'code_space, code_space, code_space.']
['hello world']
------------------

从上篇Python re模块正则表达式到这篇，我们已经把常用的正则匹配的方法学会了。

关注我，坚持每日积累一个技巧，长期坚持，我们将会不断进步。

#python##程序员##请回答，你的年度知识点##教育听我说##计算机#

上一篇： Linux基础知识之sed、grep、find linux sed-i
下一篇：正则表达式(java 版)的理解正则表达式在java中的使用

网站首页 > 技术文章 正文

Python re模块 正则表达式之compile函数

一、应用场景

二、使用方法

猜你喜欢

网站首页 > 技术文章正文

Python re模块正则表达式之compile函数