awk中多字符分隔符的非贪婪正则表达式匹配

白子明

2023-03-14

考虑字符串“AB 1 BA 2 AB 3 BA”。如何以非贪婪的方式（在awk中）匹配“AB”和”BA“之间的内容？

我尝试了以下方法:

awk '
BEGIN {
    str="AB 1 BA 2 AB 3 BA"
    regex="AB([^B][^A]|B[^A]|[^B]A)*BA"
    if (match(str,regex))
        print substr(str,RSTART,RLENGTH)
}'

没有输出。我相信不匹配的原因是“AB”和“BA”之间的字符数为奇数。如果我用“AB 11 BA 22 AB 33 BA”替换 str，正则表达式似乎可以工作。

共有3个答案

双元魁

2023-03-14

对于一般表达式，我将它用作非贪婪匹配:

function smatch(s, r) {
    if (match(s, r)) {
        m = RSTART
        do {
            n = RLENGTH
        } while (match(substr(s, m, n - 1), r))
        RSTART = m
        RLENGTH = n
        return RSTART
    } else return 0
}

< code>smatch的行为类似于< code>match，返回:

正则表达式 R 出现的位置在 S 中出现的位置，如果没有出现正则表达式 R 的位置为 0。变量 RSTART 和 RLENGTH 设置为匹配字符串的位置和长度。

马野

2023-03-14

另一个答案并没有真正回答：如何不贪婪地匹配？看起来它不能在（G）AWK中完成。手册是这样说的：

awk（和 POSIX）正则表达式始终匹配可以匹配的最左边、最长的输入字符序列。

https://www.gnu.org/software/gawk/manual/gawk.html#Leftmost-最长的

整本手册没有包含“贪婪”或“懒惰”这两个词。它提到了扩展正则表达式，但对于贪婪匹配，你需要与Perl兼容的正则表达式。所以。。。不，做不到。

松建本

2023-03-14

合并两个否定的字符类，并从第二个交替中删除[^A]：

regex = "AB([^AB]|B|[^B]A)*BA"

不过，此正则表达式在字符串 ABABA 上失败 - 不确定这是否是一个问题。

解释:

AB       # Match AB
(        # Group 1 (could also be non-capturing)
 [^AB]   # Match any character except A or B
|        # or
 B       # Match B
|        # or
 [^B]A   # Match any character except B, then A
)*       # Repeat as needed
BA       # Match BA

由于在交替中匹配A的唯一方法是匹配除B之外的字符，因此我们可以安全地使用简单的B作为替代方法之一。

类似资料：

Python非贪婪正则表达式

问题内容：我如何制作像这样的python正则表达式，使得在给定的情况下，python匹配而不是？我知道我可以使用代替，但是我正在寻找一种更通用的解决方案，使我的regex更加整洁。有什么办法告诉python“嘿，尽快匹配它”？问题答案：您寻找功能强大的吗？ http://docs.python.org/3/howto/regex.html#greedy-versus-non-greedy
Java中的非贪婪正则表达式

问题内容：我有下一个代码：并具有下一个输出：但我认为它必须是：有人请解释为什么。问题答案：由于您的模式是非贪婪的，因此它们在仍由匹配项组成的情况下，匹配的文本越少越好。去除？在第二组中，您会得到单词 word word big small
php正则表达式中贪婪与非贪婪介绍

本文向大家介绍php正则表达式中贪婪与非贪婪介绍，包括了php正则表达式中贪婪与非贪婪介绍的使用技巧和注意事项，需要的朋友参考一下一、贪婪与非贪婪什么叫贪婪，比如说要从字符串中<td>面包一</td><td>面包二</td>吃面包，本来你只可以吃面包一，可是你贪心，于是就把第一个<td>到最后一个</td>里面的两个面包取出来了，你想多吃点，非贪婪也就是你不贪吃了，就只吃面包一。我们来看看正
中两个子字符串之间的非贪婪正则表达式匹配。净[重复]

示例文本：我希望文本从标题到（不包括）。所以我尝试了一个从“”到“\n的非贪婪匹配，但它仍然是贪婪和过度匹配的：（我已经有了一个解决方案，通过在和之间搜索，但我更喜欢使用上述方法作为非贪婪匹配的学习练习。）更新：我的问题更简单，有源文本，专门针对C#。更容易理解问题。链接的问题在技术上是相关的，但更难应用于这种情况。
Python正则表达式教程之三：贪婪/非贪婪特性

本文向大家介绍Python正则表达式教程之三：贪婪/非贪婪特性，包括了Python正则表达式教程之三：贪婪/非贪婪特性的使用技巧和注意事项，需要的朋友参考一下之前已经简单介绍了Python正则表达式的基础与捕获，那么在这一篇文章里，我将总结一下正则表达式的贪婪/非贪婪特性。贪婪默认情况下，正则表达式将进行贪婪匹配。所谓“贪婪”，其实就是在多种长度的匹配字符串中，选择较长的那一个。例如，如下
正则表达式：谁更贪婪？

问题内容：我主要关心的是Java风格，但是我也希望了解其他信息。假设您有一个像这样的子模式：虽然这不是很有用，但可以说这两个捕获组（例如和）是更大模式的一部分，该模式与对这些组的反向引用匹配，依此类推。因此，两者都是贪婪的，因为他们试图捕获尽可能多的东西，只在需要时花更少的时间。我的问题是：谁更贪婪？是否获得优先权，仅在必要时才分配份额？关于什么：假设确实获得了优先权。假设它过于贪婪

awk中多字符分隔符的非贪婪正则表达式匹配

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档