模块的的作用主要是用于字符串和文本处理,查找,搜索,替换等
复习一下基本的正则表达式吧
.:匹配除了换行符以为的任意单个字符
*:匹配任意字符,一个,零个,多个都能匹配得到 俗称贪婪模式
+:匹配位于+之前的一个或者多个字符
|:匹配位于|之前或者之后的字符
^:匹配行首
$:匹配行尾
?:匹配位于?之前的零个或者一个字符,不匹配多个字符
\:表示 \ 之后的为转义字符
[]:匹配[]之中的任意单个字符,[0-9]表示匹配0到9任意一个数字
():将位于()之内的的内容当作一个整体
{}:按{}中的次数进行匹配,100[0-9]{3}表示在100之后任意匹配一个3位数(100-999)
python中以\开头的元字符:
特殊序列符号 |
意义 |
\A |
只在字符串开始进行匹配 |
\Z |
只在字符串结尾进行匹配 |
\b |
匹配位于开始或结尾的空字符串 |
\B |
匹配不位于开始或结尾的空字符串 |
\d |
相当于[0-9] |
\D |
相当于[^0-9] |
\s |
匹配任意空白字符:[\t\n\r\r\v] |
\S |
匹配任意非空白字符:[^\t\n\r\r\v] |
\w |
匹配任意数字和字母:[a-zA-Z0-9] |
\W |
匹配任意非数字和字母:[^a-zA-Z0-9] |
正则表达式语法表
语法 | 意义 | 说明 |
"." | 任意字符 | |
"^" | 字符串开始 | '^hello'匹配'helloworld'而不匹配'aaaahellobbb' |
"$" | 字符串结尾 | 与上同理 |
"*" |
0 个或多个字符(贪婪匹配) |
<*>匹配<title>chinaunix</title> |
"+" |
1 个或多个字符(贪婪匹配) |
与上同理 |
"?" |
0 个或多个字符(贪婪匹配) |
与上同理 |
*?,+?,?? |
以上三个取第一个匹配结果(非贪婪匹配) | <*>匹配<title> |
{m,n} |
对于前一个字符重复m到n次,{m}亦可 |
a{6}匹配6个a、a{2,4}匹配2到4个a |
{m,n}? |
对于前一个字符重复m到n次,并取尽可能少 |
‘aaaaaa'中a{2,4}只会匹配2个 |
"\\" |
特殊字符转义或者特殊序列 | |
[] |
表示一个字符集 | [0-9]、[a-z]、[A-Z]、[^0] |
"|" |
或 | A|B,或运算 |
(...) |
匹配括号中任意表达式 | |
(?#...) |
注释,可忽略 | |
(?=...) |
Matches if ... matches next, but doesn't consume the string. |
'(?=test)' 在hellotest中匹配hello |
(?!...) |
Matches if ... doesn't match next. |
'(?!=test)' 若hello后面不为test,匹配hello |
(?<=...) |
Matches if preceded by ... (must be fixed length). |
'(?<=hello)test' 在hellotest中匹配test |
(?<!...) |
Matches if not preceded by ... (must be fixed length). |
'(?<!hello)test' 在hellotest中不匹配test |
匹配的标志和含义
标志 | 含义 |
re.I | 忽略大小写 |
re.L | 根据本地设置而更改\w,\W,\b,\B,\s,\S的匹配内容 |
re.M | 多行匹配模式 |
re.S | 使“.”元字符匹配换行符 |
re.U | 匹配Unicode字符 |
re.X | 忽略需要匹配模式中的空格,并且可以使用"#"号注释 |
文本内容(提取Linux下的password文件)
man:x:6:12:man:/var/cache/man:/bin/nologin
re模块中有3个搜索函数,每个函数都接受3个参数(匹配模式,要匹配的字符串,进行匹配的标志),如果匹配到了就返回一个对象实例,么有就返会None.
findall():用于在字符串中查找符合正则表达式的字符串,并返回这些字符串的列表
search():搜索整个字符串,返回对象实例
match():只从第一个字符开始匹配,后面的不再匹配,返回对象实例
lovelinux@LoveLinux:~/py/boke$ cat text man:x:6:12:man:/var/cache/man:/bin/sh lovelinux@LoveLinux:~/py/boke$ cat test.py #/usr/bin/env python #coding:utf-8 import re with open('text','r') as txt: f = txt.read() print re.match('bin',f) print re.search('bin',f).end() lovelinux@LoveLinux:~/py/boke$ python test.py None 34 lovelinux@LoveLinux:~/py/boke$ vim test.py lovelinux@LoveLinux:~/py/boke$ python test.py None <_sre.SRE_Match object at 0x7f12fc9f9ed0>
返回是对象实例有2个方法,
start():返回记录匹配到字符的开始索引
end():返回记录匹配到字符的结束索引
lovelinux@LoveLinux:~/py/boke$ python test.py None 31 34 lovelinux@LoveLinux:~/py/boke$ cat test.py #/usr/bin/env python #coding:utf-8 import re with open('text','r') as txt: f = txt.read() print re.match('bin',f) print re.search('bin',f).start() print re.search('bin',f).end()
为什么要学正则表达式 实际上爬虫一共就四个主要步骤: 明确目标 (要知道你准备在哪个范围或者网站去搜索) 爬 (将所有的网站的内容全部爬下来) 取 (去掉对我们没用处的数据) 处理数据(按照我们想要的方式存储和使用) 我们在昨天的案例里实际上省略了第3步,也就是”取”的步骤。因为我们down下了的数据是全部的网页,这些数据很庞大并且很混乱,大部分的东西使我们不关心的,因此我们需要将之按我们的需要过
在 Python 中,我们可以使用内置的 re 模块来使用正则表达式。 有一点需要特别注意的是,正则表达式使用 对特殊字符进行转义,比如,为了匹配字符串 ‘python.org’,我们需要使用正则表达式 'python.org',而 Python 的字符串本身也用 转义,所以上面的正则表达式在 Python 中应该写成 'python\.org',这会很容易陷入 的困扰中,因此,我们建议使用 Py
本文向大家介绍python re模块和正则表达式,包括了python re模块和正则表达式的使用技巧和注意事项,需要的朋友参考一下 一、re模块和正则表达式 先来看一个例子:https://reg.jd.com/reg/person?ReturnUrl=https%3A//www.jd.com/ 这是京东的注册页面,打开页面我们就看到这些要求输入个人信息的提示。假如我们随意的在手机号码这一栏输入一
本文向大家介绍详解Python正则表达式re模块,包括了详解Python正则表达式re模块的使用技巧和注意事项,需要的朋友参考一下 正则是处理字符串最常用的方法,我们编码中到处可见正则的身影。 正则大同小异,python 中的正则跟其他语言相比略有差异: 1、替换字符串时,替换的字符串可以是一个函数 2、split 函数可以指定分割次数,这会导致有个坑 3、前项界定的表达式必须定长 下面详细描述下
本文向大家介绍正则表达式+Python re模块详解,包括了正则表达式+Python re模块详解的使用技巧和注意事项,需要的朋友参考一下 正则表达式(Regluar Expressions)又称规则表达式,在代码中常简写为REs,regexes或regexp(regex patterns)。它本质上是一个小巧的、高度专用的编程语言。 通过正则表达式可以对指定的文本实现 匹配测试、内容查找、内容
本文向大家介绍python正则表达式re模块详解,包括了python正则表达式re模块详解的使用技巧和注意事项,需要的朋友参考一下 快速入门 执行结果: 执行结果: 执行结果: 执行结果: