当前位置: 首页 > 知识库问答 >
问题:

awk中多字符分隔符的非贪婪正则表达式匹配

白子明
2023-03-14

考虑字符串“AB 1 BA 2 AB 3 BA”。如何以非贪婪的方式(在awk中)匹配“AB””BA“之间的内容?

我尝试了以下方法:

awk '
BEGIN {
    str="AB 1 BA 2 AB 3 BA"
    regex="AB([^B][^A]|B[^A]|[^B]A)*BA"
    if (match(str,regex))
        print substr(str,RSTART,RLENGTH)
}'

没有输出。我相信不匹配的原因是“AB”和“BA”之间的字符数为奇数。如果我用“AB 11 BA 22 AB 33 BA”替换 str,正则表达式似乎可以工作。

共有3个答案

双元魁
2023-03-14

对于一般表达式,我将它用作非贪婪匹配:

function smatch(s, r) {
    if (match(s, r)) {
        m = RSTART
        do {
            n = RLENGTH
        } while (match(substr(s, m, n - 1), r))
        RSTART = m
        RLENGTH = n
        return RSTART
    } else return 0
}

< code>smatch的行为类似于< code>match,返回:

正则表达式 R 出现的位置在 S 中出现的位置,如果没有出现正则表达式 R 的位置为 0。变量 RSTARTRLENGTH 设置为匹配字符串的位置和长度。

马野
2023-03-14

另一个答案并没有真正回答:如何不贪婪地匹配?看起来它不能在(G)AWK中完成。手册是这样说的:

awk(和 POSIX)正则表达式始终匹配可以匹配的最左边、最长的输入字符序列。

https://www.gnu.org/software/gawk/manual/gawk.html#Leftmost-最长的

整本手册没有包含“贪婪”或“懒惰”这两个词。它提到了扩展正则表达式,但对于贪婪匹配,你需要与Perl兼容的正则表达式。所以。。。不,做不到。

松建本
2023-03-14

合并两个否定的字符类,并从第二个交替中删除[^A]

regex = "AB([^AB]|B|[^B]A)*BA"

不过,此正则表达式在字符串 ABABA 上失败 - 不确定这是否是一个问题。

解释:

AB       # Match AB
(        # Group 1 (could also be non-capturing)
 [^AB]   # Match any character except A or B
|        # or
 B       # Match B
|        # or
 [^B]A   # Match any character except B, then A
)*       # Repeat as needed
BA       # Match BA

由于在交替中匹配A的唯一方法是匹配除B之外的字符,因此我们可以安全地使用简单的B作为替代方法之一。

 类似资料:
  • 问题内容: 我如何制作像这样的python正则表达式,使得在给定的情况下,python匹配而不是? 我知道我可以使用代替,但是我正在寻找一种更通用的解决方案,使我的regex更加整洁。有什么办法告诉python“嘿,尽快匹配它”? 问题答案: 您寻找功能强大的吗? http://docs.python.org/3/howto/regex.html#greedy-versus-non-greedy

  • 问题内容: 我有下一个代码: 并具有下一个输出: 但我认为它必须是: 有人请解释为什么。 问题答案: 由于您的模式是非贪婪的,因此它们在仍由匹配项组成的情况下,匹配的文本越少越好。 去除 ?在第二组中,您会得到 单词 word word big small

  • 本文向大家介绍php正则表达式中贪婪与非贪婪介绍,包括了php正则表达式中贪婪与非贪婪介绍的使用技巧和注意事项,需要的朋友参考一下 一、贪婪与非贪婪 什么叫贪婪,比如说要从字符串中<td>面包一</td><td>面包二</td>吃面包,本来你只可以吃面包一,可是你贪心,于是就把第一个<td>到最后一个</td>里面的两个面包取出来了,你想多吃点,非贪婪也就是你不贪吃了,就只吃面包一。 我们来看看正

  • 示例文本: 我希望文本从标题 到(不包括)。 所以我尝试了一个从“”到“\n的非贪婪匹配,但它仍然是贪婪和过度匹配的: (我已经有了一个解决方案,通过在和之间搜索,但我更喜欢使用上述方法作为非贪婪匹配的学习练习。) 更新: 我的问题更简单,有源文本,专门针对C#。更容易理解问题。链接的问题在技术上是相关的,但更难应用于这种情况。

  • 本文向大家介绍Python正则表达式教程之三:贪婪/非贪婪特性,包括了Python正则表达式教程之三:贪婪/非贪婪特性的使用技巧和注意事项,需要的朋友参考一下 之前已经简单介绍了Python正则表达式的基础与捕获,那么在这一篇文章里,我将总结一下正则表达式的贪婪/非贪婪特性。  贪婪 默认情况下,正则表达式将进行贪婪匹配。所谓“贪婪”,其实就是在多种长度的匹配字符串中,选择较长的那一个。例如,如下

  • 问题内容: 我主要关心的是Java风格,但是我也希望了解其他信息。 假设您有一个像这样的子模式: 虽然这不是很有用,但可以说这两个捕获组(例如和)是更大模式的一部分,该模式与对这些组的反向引用匹配,依此类推。 因此,两者都是贪婪的,因为他们试图捕获尽可能多的东西,只在需要时花更少的时间。 我的问题是:谁更贪婪?是否获得优先权,仅在必要时才分配份额? 关于什么: 假设确实获得了优先权。假设它过于贪婪