当前位置: 首页 > 编程笔记 >

Python for Informatics 第11章之正则表达式(四)

南宫俊逸
2023-03-14
本文向大家介绍Python for Informatics 第11章之正则表达式(四),包括了Python for Informatics 第11章之正则表达式(四)的使用技巧和注意事项,需要的朋友参考一下

注:以下文章原文来自于Dr Charles Severance 的 《Python for Informatics》

11.3 组合查询和抽取

  如果我们想以“X-”字符串开头的行中找到数字,就像下面两行字符串:

X-DSPAM-Confidence: 0.8475
X-DSPAM-Probability: 0.0000

  但我们不只是要任意行中的任意浮点数,而是具备上面格式的行中的数字。

  我们可以创建以下正则表达式来选择这样的行:

^X-.*: [0-9.]+

  这个表达式的含义是以“X-”两个字符开头,后面跟了任意个字符“.*",接着是一个冒号":"和空格" ",在空格之后呢是一个及以上的数字或小数点“[0-9.]+”。大家要注意的是方括号中的"[.]"不是匹配任何字符,而是匹配真正的".",这与方括号外的"."要予以区分。

  这是一个非常紧凑的表达式,它将非常匹配我们感兴趣的行:

import re
hand = open('mobx-short.txt')
for line in hand:
line = line.rstrip()
if re.search('^X-.*: [0-9.]+', line)
print(line) 

  当我们运行这个程序,我们可以看到我们想要的数据被完美的过滤显示。

X-DSPAM-Confidence: 0.8475
X-DSPAM-Probability: 0.0000
X-DSPAM-Confidence: 0.6178
X-DSPAM-Probability: 0.0000

  但是我们必须使用split解决提取数字的问题。然而当这个问题简单到能用split解决时,我们可以使用正则表达式的另一特点,一步达到查找和解析功能。

  圆括号()是正则表达式中的另一特殊字符。当我们添加圆括号至表达式中,在字符串的匹配过程中它们将被忽略,但是当你使用findall()时,圆括号表示你想整个正则表达式被匹配,但是你只抽取位于圆括号内你感兴趣的那部分字符串。

  所以我们对程序修改如下:

import re
hand = open('mbox-short.txt')
for line in hand:
line = line.rstrip()
x = re.findall('^X-.*: ([0-9.]+)', line)
if len(x) > 0 :
print(x) 

  我们在正则表达式中对匹配浮点数字部分添加圆括号,并且用findall()代替search(),返回我们想要的浮点数字部分。这个程序的输出如下:

['0.8475']
['0.0000']
['0.6178']
['0.0000']
['0.6961']
['0.0000']
..

  虽然这些在列表中的数字还需要从字符串转换为浮点数,但是我们应用正则表达式的能力同时查找和抽取了我们感兴趣的的信息。

  下面是使用这个技巧的另一个案例。如果你查看文件,你会发现有许多行是这样的格式:

Details: http://source.sakaiproject.org/viewsvn/?view=rev&rev=39772

  如果我们想用同样的技巧抽取所有修订号(行末尾的整数),我们可以这样编写代码:

import re
hand = open('mbox-short.txt')
for line in hand:
line = line.rstrip()
x = re.findall('^Details:.*rev=([0-9]+)', line)
if len(x) > 0 :
print(x)

  我们的正则表达式的是这样的,以"Details:"开头,之后可以是任意字符”.*",然后是"rev=",最后是一个以上的数字。我们希望行是匹配整个正则表达式,但我们只需要圆括号中"[0-9]+"的数字。当我们运行程序时,将得到以下输出:

['39772']
['39771']
['39770']
['39769']
...

  记住,"[0-9]+"是贪婪的,它将尝试抽取任何可能的数字,所以我们得到的每个字符串都有五个数字。正则表达式库在行的开头和结尾两个方向进行扩展,只到它数到一个非数字的字符。

  我们可以用正则表达式重做本书先前的一个练习。在这个练习中我们对每个邮件的时间感兴趣,我们寻找的行的格式如下:

From stephen.marquard@uct.ac.za Sat Jan 5 09:14:16 2008

  并且我们想抽取每一行中日期中的小时信息。先前我们通过两次调用split实现。第一次我们将行分离成单词,然后我们对第五个单词基于冒号再次分离,拉出我们感兴趣的两个字符。

  假定要查找的行是良好格式化的,那么只要想到少的代码就可以实现。但是当你为确保程序中碰到不具备这样格式而失效,而添加必要的错误检验(或者一个try/except块)时,这个代码将会膨胀到10-15行,并且难以读懂。

  我们可以用下面的正则表达式使工作更简单:

^From .* [0-9][0-9]:

  这个表达式的含义是以"From "开头(注意空格),然后跟着任意个字符".*",接着又是一个空格,然后是两个数字"[0-9][0-9]",再接着是一个冒号。我们要找的就是具备这样格式的行。

  为了在findall中只抽出表示小时的两位数字,我们将表达式修改如下:

^From .* ([0-9][0-9]):

 最后这个程序是这样的:

import re
hand = open('mbox-short.txt')
for line in hand:
line = line.rstrip()
x = re.findall('ˆFrom .* ([0-9][0-9]):', line)
if len(x) > 0 : 
print(x)

  程序运行结果如下:

['09']
['18']
['16']
['15']
...

相关阅读:

Python for Informatics 第11章 正则表达式(一)

Python for Informatics 第11章之正则表达式(二)

关于Python for Informatics 第11章之正则表达式(四)就给大家介绍到这里,希望对大家有所帮助。后续还会持续更新,更多精彩内容敬请关注!

 类似资料:
  • 本章主题 ♦ 引言/动机 ♦ 特别的字符和符号 ♦ 正则表达式与Python ♦ re模块 15.1 引言/动机 处理文本和数据是件大事。如果你不相信我说的话,请仔细看看现如今的计算机主要都在做些什么工作:文字处理、网页填表、来自数据库的信息流、股票报价信息、新闻列表,这个清单还会不断地增长。因为我们可能不知道这些需要计算机编程处理文本或数据的具体内容,所以能把这些文本或数据以某种可被计算机识别和

  • 为了充分发挥shell编程的威力,你需要精通正则表达式。 在脚本编程中的一些命令和软件包普遍使用正则表达式,例如grep, expr, sed和awk. 点 --.-- 匹配除了新行符之外的任意一个字符. 美元符 --$-- 在正则表达式中匹配行尾. "^$"匹配空行. 方括号 --[...]-- 在正则表达式中表示匹配括号中的一个字符. "[xyz]"匹配字符x, y, 或z. "[c-n]"匹

  • 第 7 章 正则表达式 7.1. 概览 7.2. 个案研究:街道地址 7.3. 个案研究:罗马字母 7.3.1. 校验千位数 7.3.2. 检验百位数 7.4. 使用{n,m} 语法 7.4.1. 校验十位数和个位数 7.5. 松散正则表达式 7.6. 个案研究: 解析电话号码 7.7. 小结 正则表达式是搜索、替换和解析复杂字符模式的一种强大而标准的方法。如果你曾经在其他语言(如Perl)中使用

  • 第 32 章 正则表达式 目录 1. 引言 2. 基本语法 3. sed 4. awk 5. 练习:在C语言中使用正则表达式

  • 正则表达式,是一个描述字符模式的对象。javascript的RegExp类表示正则表达式,String和RegExp都定义了方法,后者使用正则表达式进行强大的模式匹配和文本检索与替换功能。javascript的正则表达式是perl5的这种表达式语法的大小子集,所以多有perl编程经验的程序员来说,学习javascript的正则表达式是小菜一碟。 本章首先介绍用以描述“文本模式”的正则表达式语法。随

  • 模式是具有某个可识别属性的对象组成的集合。字符串集合就是一类模式,比如C语言合法标识符的集合,其中每个标识符都是个字符串,由字母、数字和下划线组成,开头为字母或下划线。另一个例子是由只含0和1的给定大小数组构成的集合,读字符的函数可以将其解释为表示相同符号。图10-1就展示了全都可以解释为字母A的3个7×7数组。所有这样的数组就可以构成模式“A”。 0001000   0000000   0001

  • 昨天,我需要向正则表达式添加一个文件路径,创建一个如下所示的模式: 一开始正则表达式不匹配,因为包含几个正则表达式特定的符号,如 或 。作为快速修复,我将它们替换为 和 . 与 . 然而,我问自己,是否没有一种更可靠或更好的方法来清除正则表达式特定符号中的字符串。 Python 标准库中是否支持此类功能? 如果没有,您是否知道一个正则表达式来识别所有正则表达式并通过替代品清理它们?

  • 常用正则表达式 说明:正则表达式通常用于两种任务:1.验证,2.搜索/替换。用于验证时,通常需要在前后分别加上\^和\$,以匹配整个待验证字符串;搜索/替换时是否加上此限定则根据搜索的要求而定,此外,也有可能要在前后加上\b而不是\^和\$。此表所列的常用正则表达式,除个别外均未在前后加上任何限定,请根据需要,自行处理。 校验数字的表达式 1. 数字:^[0-9]*$ 2. n位的数字:^\d{n