当前位置：首页 > 面试题库 >

在Python 3中加速数百万个正则表达式的替换

萧晔

2023-03-14

问题内容：

我正在使用Python 3.5.2

我有两个清单

大约750,000个“句子”（长字符串）的列表
我想从我的750,000个句子中删除的大约20,000个“单词”的列表

因此，我必须遍历750,000个句子并执行大约20,000个替换，但前提是我的单词实际上是“单词”，并且不属于较大的字符串。

我这样做是通过预编译我的单词，使它们位于\b元字符的两侧

compiled_words = [re.compile(r'\b' + word + r'\b') for word in my20000words]

然后我遍历我的“句子”

import re

for sentence in sentences:
  for word in compiled_words:
    sentence = re.sub(word, "", sentence)
  # put sentence into a growing list

这个嵌套循环每秒处理大约50个句子，这很好，但是处理我所有的句子仍需要几个小时。

有没有一种使用该str.replace方法的方法（我认为是更快的方法），但仍然要求仅在单词边界处进行替换？
或者，有没有办法加快该re.sub方法？re.sub如果我的单词的长度大于句子的长度，我已经略微提高了速度，但这并没有太大的改进。

感谢你的任何建议。

问题答案：

你可以尝试做的一件事就是编译一个单一模式，例如"\b(word1|word2|word3)\b"。

由于re依靠C代码进行实际匹配，因此节省的费用可观。

正如@pvg在评论中指出的，它也受益于单遍匹配。

如果你的单词不是正则表达式，那么Eric的答案会更快。

类似资料：

加速Python3中数百万regex替换

我有两个清单：约750k个“句子”（长字符串）的列表要从750k个句子中删除的大约20k个“单词”的列表所以，我必须遍历750k个句子，执行大约20k个替换，但前提是我的单词实际上是“单词”，并且不是更大字符串的一部分。我是通过预编译我的单词来做到这一点的，这样它们的两侧就有单词边界元字符：然后我循环我的“句子”：这个嵌套循环每秒处理大约50个句子，这很好，但是处理我所有的句子仍然需要
Python3 正则表达式

正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。 Python 自1.5版本起增加了re 模块，它提供 Perl 风格的正则表达式模式。 re 模块使 Python 语言拥有全部的正则表达式功能。 compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。 re 模块也提供了与这些方法功能完全一致的
正则表达式速查表

本文向大家介绍正则表达式速查表，包括了正则表达式速查表的使用技巧和注意事项，需要的朋友参考一下字符字符类预定义字符类 POSIX 字符类（仅 US-ASCII） java.lang.Character 类（简单的 java 字符类型） Unicode 块和类别的类边界匹配器 Greedy 数量词 Reluctant 数量词 Possessive 数量词 Logical 运算符 Back 引
Java：正则表达式替换

问题内容：我有这个字符串：现在，我想在每个数字之前添加String num:。因此结果必须是：这也必须工作：用于搜索数字的正则表达式是：[0-9]+ 但是我想用num:+ [匹配的子字符串]替换匹配的子字符串。我现在写了一个带有数字的示例，但另一个示例可以是：在每个电子邮件地址之前添加 ·Email found·: 问题答案：利用分组。您可以使用括号(并)定义组，并通过组索引$n在哪
Python正则表达式替代

问题内容：我正在尝试以的形式找到网页上的所有链接，或者我做了一个正则表达式，并且可以正常工作：但是，有没有更短的写方法呢？我重复了：// [^ / \“] + /两次，可能没有必要。我尝试了各种方法，但是没有用。我尝试了：很明显，我在这里缺少了一些东西，或者我只是对Python正则表达式不够了解。问题答案：您正在使用捕获组，并在使用捕获组时改变其行为（它只会返回捕获组的内容）。您的正则表
查找替换的正则表达式

在这个问题的背景下，我想做以下修改：查找： funcA（参数0，参数1，参数2，参数3）；替换： funcA可以有除param0之外的任意数量的参数。怎么做呢？为简单起见，忽略基本情况，即当传递给funcA的参数仅为param0时。 funcA是：职能是：编辑：参数（param1，param2..）只是包含字母的字符串。

相关阅读

如何在MySQL中执行正则表达式替换？正则表达式链接替换函数的技巧商标百分比的正则表达式 pandas 使用正则表达式替换值 VS里的正则表达式的替换技巧

相关文章

Ruby 正则表达式 MongoDB正则表达式 C#正则表达式 Java正则表达式正则表达式 - 示例

相关问答

转义正则表达式的正则表达式如何用正则表达式替换？替换正则表达式匹配中的字符在Visual Studio中查找并替换正则表达式与正则表达式匹配的正则表达式

相关工具

正则表达式测试器 WizTools.org正则表达式测试工具 Quartz 表达式生成器加速度传感器的使用万岳在线教育系统 WEB 版

相关文档

正则表达式正则表达式（regular expression）Java 正则表达式教程 java.util.regex 正则表达式中文教程 Python 正则表达式操作指南