正则表达式(Regluar Expressions)又称规则表达式,在代码中常简写为REs,regexes或regexp(regex patterns)。它本质上是一个小巧的、高度专用的编程语言。 通过正则表达式可以对指定的文本实现
匹配测试、内容查找、内容替换、字符串分割 等功能。
re模块介绍
Python中的re模块提供了一个正则表达式引擎接口,它允许我们将正则表达式编译成模式对象,然后通过这些模式对象执行模式匹配搜索和字符串分割、子串替换等操作。re模块为这些操作分别提供了模块级别的函数以及相关类的封装。
总是在量词范围内尽量多匹配 - 贪婪
总是在量词范围内尽量少匹配 - 惰性
.*?x 匹配任意内容任意次数 遇到x就停止
.+?x 匹配任意内容至少1次 遇到x就停止
. 有特殊的意义,取消特殊的意义\
取消一个元字符的特殊意义有两种方法
在这个元字符前面加 \
对一部分字符生效,把这个元字符放在字符组里
[.()+?*]
findall
会优先显示分组内的内容
*****取消优先显示(?:正则)
search
只能返回第一个符合条件的项
得到的结果需要.group取值
默认获取完整的匹配结果
通过group(n)取第n个分组中的内容
# search 还是按照完整的正则进行匹配,显示也显示匹配到的第一个内容,但是我们可以通过给group方法传参数 # 来获取具体文组中的内容 ret = re.search('9(\d)(\d)','19740ash93010uru') print(ret) # 变量 -- > <re.Match object; span=(1, 4), match='974'> if ret: print(ret.group()) # --> 974 print(ret.group(1)) # --> 7 print(ret.group(2)) # --> 4 # findall # 取所有符合条件的,优先显示分组中的 # search 只取第一个符合条件的,没有优先显示这件事儿 # 得到的结果是一个变量 # 变量.group() 的结果 完全和 变量.group(0)的结果一致 # 变量.group(n) 的形式来指定获取第n个分组中匹配到的内容 # 加上括号 是为了对真正需要的内容进行提取 ret = re.findall('<\w+>(\w+)</\w+>','<h1>askh930s02391j192agsj</h1>') print(ret) # --> ['askh930s02391j192agsj']
其他的内容在代码中有详细的注释,大家可以复制我的代码一步一步运行然后实验
以下的内容有:split sub subn math,compile,finditer
# split sub subn math,compile,finditer # split res = re.split('\d+', "cyx123456cyxx") print(res) # --> ['cyx', 'cyxx'] res = re.split('(\d+)', "cyx123456cyxx") # 保留分组 print(res) # --> ['cyx', '123456', 'cyxx'] # sub 替换 res = re.sub('\d+', '我把数字替换了', "cyx123456cyxxx123456") # 默认全部替换,当然也可以替换一次re.sub('\d+','我把数字替换了',"cyx123456cyxxx123456",1) print(res) # --> cyx我把数字替换了cyxxx我把数字替换了 # subn 替换了并显示替换的次数 res = re.subn('\d+', '我把数字替换了', "cyx123456cyxxx123456") print(res) # --> ('cyx我把数字替换了cyxxx我把数字替换了', 2) # match 这个就相当与加了个^ (和search差不多) --> 主要用来规定这个字符号必须是什么样的 res = re.match('\d+', 'cyx123456cyxxx') print(res) # --> None res = re.match('\d+', '123cyx456cyxxx') print(res.group()) # --> 123 # compile -- 节省代码的时间的工具 # 假如同一个正则表达式要被使用多次 # 节省了多次解析同一个正则表达式的时间 ret = re.compile("\d+") res = ret.search("cyx12456cyxXX123") print(res.group()) # --> 12456 # finditer --> 节省空间 ret = re.finditer("\d+", "cyx123456cyxxx125644") for r in ret: print(r.group()) # --> 123456 # 125644 # 怎么又节省时间又节省空间呢? ret = re.compile('\d+') res = ret.finditer("cyx222231fddsf45746sdf2123sdf56456sdf10123sdf123132sdf") for r in res: print(r.group()) """ 222231 45746 2123 56456 10123 123132 """ # 分组命名(?P<组名>正则) (?P=组名) # 有的时候我们要匹配的内容是包含在不想要的内容之中的, # 只能先把不想要的内容匹配出来,然后再想办法从结果中去掉 # 分组命名的用法 (找两个组里面是一样的内容) exp = '<abc>asdasf54545645698asdasd</abc>00545sdfsdf</abd>' ret = re.search('<(?P<tag>\w+)>.*?</(?P=tag)', exp) print(ret) # -- > <re.Match object; span=(0, 33), match='<abc>asdasf54545645698asdasd</abc'> # exp2: import re ret = re.search('\d(\d)\d(\w+?)(\d)(\w)\d(\d)\d(?P<name1>\w+?)(\d)(\w)\d(\d)\d(?P<name2>\w+?)(\d)(\w)', '123abc45678agsf_123abc45678agsf123abc45678agsf') print(ret.group('name1')) # -- > agsf_123abc print(ret.group('name2')) # -- > agsf
今日小思考
当我们有一个这样的列表:
lis = ['', 'z', 'c', 'asd', 'sdf', '', 'asd']
那么我们如何将里面的空字符删除呢?
ret = filter(lambda n: n, lis) print(list(ret)) # --> ['z', 'c', 'asd', 'sdf', 'asd']
总结
到此这篇关于正则表达式+Python re模块详解的文章就介绍到这了,更多相关正则表达式 python re模块内容请搜索小牛知识库以前的文章或继续浏览下面的相关文章希望大家以后多多支持小牛知识库!
本文向大家介绍详解Python正则表达式re模块,包括了详解Python正则表达式re模块的使用技巧和注意事项,需要的朋友参考一下 正则是处理字符串最常用的方法,我们编码中到处可见正则的身影。 正则大同小异,python 中的正则跟其他语言相比略有差异: 1、替换字符串时,替换的字符串可以是一个函数 2、split 函数可以指定分割次数,这会导致有个坑 3、前项界定的表达式必须定长 下面详细描述下
本文向大家介绍python正则表达式re模块详解,包括了python正则表达式re模块详解的使用技巧和注意事项,需要的朋友参考一下 快速入门 执行结果: 执行结果: 执行结果: 执行结果:
为什么要学正则表达式 实际上爬虫一共就四个主要步骤: 明确目标 (要知道你准备在哪个范围或者网站去搜索) 爬 (将所有的网站的内容全部爬下来) 取 (去掉对我们没用处的数据) 处理数据(按照我们想要的方式存储和使用) 我们在昨天的案例里实际上省略了第3步,也就是”取”的步骤。因为我们down下了的数据是全部的网页,这些数据很庞大并且很混乱,大部分的东西使我们不关心的,因此我们需要将之按我们的需要过
在 Python 中,我们可以使用内置的 re 模块来使用正则表达式。 有一点需要特别注意的是,正则表达式使用 对特殊字符进行转义,比如,为了匹配字符串 ‘python.org’,我们需要使用正则表达式 'python.org',而 Python 的字符串本身也用 转义,所以上面的正则表达式在 Python 中应该写成 'python\.org',这会很容易陷入 的困扰中,因此,我们建议使用 Py
本文向大家介绍python正则表达式re模块详细介绍,包括了python正则表达式re模块详细介绍的使用技巧和注意事项,需要的朋友参考一下 本模块提供了和Perl里的正则表达式类似的功能,不关是正则表达式本身还是被搜索的字符串,都可以是Unicode字符,这点不用担心,python会处理地和Ascii字符一样漂亮。 正则表达式使用反斜杆(\)来转义特殊字符,使其可以匹配字符本身,而不是指定其他特殊
本文向大家介绍python re模块和正则表达式,包括了python re模块和正则表达式的使用技巧和注意事项,需要的朋友参考一下 一、re模块和正则表达式 先来看一个例子:https://reg.jd.com/reg/person?ReturnUrl=https%3A//www.jd.com/ 这是京东的注册页面,打开页面我们就看到这些要求输入个人信息的提示。假如我们随意的在手机号码这一栏输入一