Python正则表达式

宋小童 2022-06-05 我要评论

正则表达式，又称规则表达式（Regular Expression），是使用单个字符串来描述、匹配某个句法规则的字符串，常被用来检索、替换那些符合某个模式（规则）的文本。最初的正则表达式出现于理论计算机科学的自动控制理论和形式化语言理论中。

安装 Python 解释器/anaconda。

安装好 jupyter lab。

re 模块的使用

匹配方法的使用

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回 none。

# 导入 re 模块 
import re
print(re.match('www', 'www.huawei.com').span()) # 在起始位置匹配
print(re.match('com', 'www.huawei.com')) # 不在起始位置匹配

输出： (0, 3)

None

re.search 扫描整个字符串并返回第一个成功的匹配。

import re 
print(re.search('www', 'www.huawei.com').span()) # 在起始位置匹配 
print(re.search('com', 'www.huawei.com').span()) # 不在起始位置匹配

输出： (0, 3)
(11, 14)

compile 方法的使用

re.compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用。

pattern = re.compile(r'\d+') # 用于匹配至少一个数字 
n = pattern.match('one12twothree34four') # 查找头部，没有匹配
print(n) # 从'e'的位置开始匹配，没有匹配
m = pattern.search('one12twothree34four')
print(m)
print(m.group())

输出： None
12

re 模块其他方法的使用

re.sub 用于替换字符串中的匹配项： 
phone = "2021-0101-000 # 这是一个电话号码" 
# 删除字符串中的 Python 注释 
num = re.sub(r'#.*$', "", phone) 
print("电话号码是: ", num) # 删除非数字(-)的字符串 
num = re.sub(r'\D', "", phone) 
print("电话号码是 : ", num) 

输出： 
电话号码是: 2021-0101-000 
电话号码是 : 20210101000

正则表达式基础

匹配数字

使用正则表达式来匹配数字：

# 匹配文本中的所有数字 
str_ = "996.ICU 指工作 996、生病 ICU，也就是工作从早上 9 点上班到晚上 9 点下班，每周工作 6 天， 生病了就住进 ICU" 
num1 = re.findall(r'\d+', str_) # 使用\d 匹配数字，+表示匹配多次
print(num1)
num2 = re.findall(r'[0-9]{1,3}', str_) # 正则表达式不唯一，可以使用[]指定匹配元素的范围 {}指定次数 
print(num2)

输出： ['996', '996', '9', '9', '6']
['996', '996', '9', '9', '6']

匹配字符

使用\w 可以匹配数字字母下划线：

匹配符号

# 匹配文本中的所有符号 
s6 = re.findall(r'\W+', str_) 
print(s6)