我正在尝试以的形式找到网页上的所有链接,"http://something"
或者https://something.
我做了一个正则表达式,并且可以正常工作:
L = re.findall(r"http://[^/\"]+/|https://[^/\"]+/", site_str)
但是,有没有更短的写方法呢?我重复了:// [^ / \“] + /两次,可能没有必要。我尝试了各种方法,但是没有用。我尝试了:
L = re.findall(r"http|https(://[^/\"]+/)", site_str)
L = re.findall(r"(http|https)://[^/\"]+/", site_str)
L = re.findall(r"(http|https)(://[^/\"]+/)", site_str)
很明显,我在这里缺少了一些东西,或者我只是对Python正则表达式不够了解。
您正在使用捕获组,并在使用捕获组.findall()
时改变其行为(它只会返回捕获组的内容)。您的正则表达式可以简化,但是如果您使用 非 捕获组,则您的版本可以使用:
L = re.findall(r"(?:http|https)://[^/\"]+/", site_str)
如果在表达式周围使用单引号,则不需要转义双引号,并且只需更改s
表达式中的,因此s?
也可以工作:
L = re.findall(r'https?://[^/"]+/', site_str)
演示:
>>> import re
>>> example = '''
... "http://someserver.com/"
... "https://anotherserver.com/with/path"
... '''
>>> re.findall(r'https?://[^/"]+/', example)
['http://someserver.com/', 'https://anotherserver.com/']
问题内容: 我需要替换字符串的一部分。我浏览了Python文档并发现了re.sub。 我期望这能打印,而不是“酒吧”。 谁能告诉我我做错了什么? 问题答案: 除了捕获要 替换 的零件外,您还可以捕获要 保留 的零件,然后使用引用对其进行引用以将它们包括在替换字符串中。 尝试以下方法: 另外,假设这是HTML,则应考虑使用HTML解析器来执行此任务,例如Beautiful Soup 。
问题内容: 我们知道会匹配单词“ a ”或“ the ”, 我想构建一个正则表达式来匹配像这样的模式 的/一个/一个原因/原因 这意味着我要匹配包含3个单词的字符串: 的第一个单词应为“ a ”,“ the ”或“ one ” 第二个单词应该是“ 原因 ”或“ 原因 ” 的第三个字应为“ 的 ”或“ 的 ” 正则表达式无济于事。 我怎样才能做到这一点?顺便说一句,我使用python。谢谢。 问题答
问题内容: 我有这个字符串: 现在,我想在每个数字之前添加String num:。 因此结果必须是: 这也必须工作: 用于搜索数字的正则表达式是:[0-9]+ 但是我想用num:+ [匹配的子字符串]替换匹配的子字符串。 我现在写了一个带有数字的示例,但另一个示例可以是:在每个电子邮件地址之前添加 ·Email found·: 问题答案: 利用分组。您可以使用括号(并)定义组,并通过组索引$n在哪
问题内容: 如何限制e004_n07中匹配/替换前导零?但是,如果任何一项包含全零,那么我需要在该项中保留一个零(请参见下面的示例)。对于输入字符串,第一个值将始终有3位数字,第二个值将始终有2位数字。 输入和输出示例 是否可以单独使用re.sub完成此操作,还是需要使用re.search/re.match? 问题答案: 如果只想在字母后删除零,则可以使用: 替换为反向引用。请参阅regex演示。
问题内容: 假设我想要一个正则表达式,使其与“从iPhone发送”和“从iPod发送”都匹配。我该如何写这样的表达? 我尝试过类似的事情: 但似乎不起作用。 问题答案:
问题内容: 我试图在Python 2.7.2中使用正则表达式从字符串中提取所有出现的带标记单词。或者简单地说,我想提取标签内的所有文本。这是我的尝试: 印刷产品 要获取的正确正则表达式是: 或。 谢谢。:) 问题答案: 产量 regex与unicode完全相同,但难于阅读。 第一个括号组告诉重新任何列表中的字符应匹配,并且同样与第二组括号。那你想什么都不要。所以, 卸下外围的方括号。(也除去杂散前