正则表达式包括具有相同开始的重叠匹配

长孙永思

2023-03-14

问题内容：

我正在使用Python 3.6。

我的目标是匹配一个正则表达式，该正则表达式可以匹配多个字符串，这些字符串重叠和/或从同一位置开始，例如：

re.findall('B.*A','BADACBA')

这使：

['BADACBA']

但是我想要：

['BADACBA','BADA','BA','BA']

（第二个'BA'是因为'BA'字符串中有两个实例）

关于如何使用正则表达式查找重叠匹配项的建议？，我已尝试将其装在前行中：

re.findall('(?=(B.*A))','BADACBA')

这使：

['BADACBA', 'BA']

更好，但仍然不是我想要的。

我还尝试了该regex模块：

regex.findall('B.*A','BADACBA',overlapped=True)

但它仍然返回：

['BADACBA', 'BA']

我还没有找到可以找到所有匹配项的东西。因为我有很多这样的正则表达式，所以硬编码的解决方案将无济于事。是否有执行此操作的模块/功能？

谢谢！

问题答案：

如前所述，正则表达式主要是一种线性和仅单规则的引擎-
您可以在是否贪婪捕获之间进行选择，但不能同时选择两者。而且，大多数正则表达式引擎不支持重叠匹配（甚至那些支持它的子字符串/强制头部移动来伪造它），因为它也不符合正则表达式的原理。

如果只寻找两个子字符串之间的简单重叠匹配，则可以自己实现：

def find_substrings(data, start, end):
    result = []
    s_len = len(start)  # a shortcut for `start` length
    e_len = len(end)  # a shortcut for `end` length
    current_pos = data.find(start)  # find the first occurrence of `start`
    while current_pos != -1:  # loop while we can find `start` in our data
        # find the first occurrence of `end` after the current occurrence of `start`
        end_pos = data.find(end, current_pos + s_len)
        while end_pos != -1:  # loop while we can find `end` after the current `start`
            end_pos += e_len  # just so we include the selected substring
            result.append(data[current_pos:end_pos])  # add the current substring
            end_pos = data.find(end, end_pos)  # find the next `end` after the curr. `start`
        current_pos = data.find(start, current_pos + s_len)  # find the next `start`
    return result

这将产生：

substrings = find_substrings("BADACBA", "B", "A")
# ['BA', 'BADA', 'BADACBA', 'BA']

但是您必须对其进行修改才能进行更复杂的匹配。

正则表达式包括具有相同开始的重叠匹配

相关阅读

相关文章

相关问答

相关工具

相关文档