当前位置: 首页 > 面试题库 >

正则表达式:谁更贪婪?

关志
2023-03-14
问题内容

我主要关心的是Java风格,但是我也希望了解其他信息。

假设您有一个像这样的子模式:

(.*)(.*)

虽然这不是很有用,但可以说这两个捕获组(例如\1\2)是更大模式的一部分,该模式与对这些组的反向引用匹配,依此类推。

因此,两者都是贪婪的,因为他们试图捕获尽可能多的东西,只在需要时花更少的时间。

我的问题是:谁更贪婪?是否\1获得优先权,\2仅在必要时才分配份额?

关于什么:

(.*)(.*)(.*)

假设\1确实获得了优先权。假设它过于贪婪,然后吐出一个字符。谁先得到它?是总是\2还是可以\3

假设\2是被\1拒绝。如果仍然无法解决问题,现在谁吐出来?是先\2\3还是先\1\2

奖金问题

如果您这样写,会发生什么:

(.*)(.*?)(.*)

现在\2很不情愿。这是否意味着\1吐出来\3,并且\2只是勉强地接受了\3拒绝?

也许我不给出具体的例子来展示我如何使用这些模式,这对我来说是一个错误,但是这里有一些:

System.out.println(
    "OhMyGod=MyMyMyOhGodOhGodOhGod"
    .replaceAll("^(.*)(.*)(.*)=(\\1|\\2|\\3)+$", "<$1><$2><$3>")
); // prints "<Oh><My><God>"

// same pattern, different input string
System.out.println(
    "OhMyGod=OhMyGodOhOhOh"
    .replaceAll("^(.*)(.*)(.*)=(\\1|\\2|\\3)+$", "<$1><$2><$3>")
); // prints "<Oh><MyGod><>"

// now \2 is reluctant
System.out.println(
    "OhMyGod=OhMyGodOhOhOh"
    .replaceAll("^(.*)(.*?)(.*)=(\\1|\\2|\\3)+$", "<$1><$2><$3>")
); // prints "<Oh><><MyGod>"

问题答案:

添加您的具体示例将大大改变问题的性质。正如我在第一个答案中所描述的那样,它仍然开始,第一个(.*)将所有字符吞噬,第二和第三组让它们容纳它们,但随后必须匹配一个等号。

显然,字符串的末尾没有一个,因此#1组逐个返回字符,直到=正则表达式中的可以与=目标中的匹配。然后,正则表达式引擎开始尝试匹配(\1|\2|\3)+$,然后开始真正的乐趣。

组1放弃了d,组2(仍然为空)放弃了它,但是其余的正则表达式仍然无法匹配。组1放弃了o和组2的匹配od,但是其余的正则表达式仍然无法匹配。因此,随着第三个小组的参与,他们三个人以各种可能的方式切分了输入内容,直到实现整体匹配为止。RegexBuddy报告说,到达那里需要13,426个步骤。

在第一个例子中,贪婪(或缺乏贪婪)并不是一个真正的因素。匹配可以实现的唯一途径是,如果在的话OhMy并且God在不同的组拍摄,所以最终这会发生什么。哪一个小组捕​​获哪个词都没有关系-
正如我之前所说的,先来先服务。

在第二个和第三个示例中,仅需将前缀分为两个块:OhMyGod。组2
MyGod在第二个示例中捕获,因为它是第二个示例,它很贪婪,就像在第一个示例中一样。在第三个示例中,每当第1组丢弃一个字符时,第2组(不愿意)就让第3组代替它,因此这就是最终拥有的角色MyGod

当然,它比这更复杂(且乏味),但是我希望这能回答您的问题。我不得不说,这是您选择的一个有趣的目标字符串。如果正则表达式引擎有可能出现性高潮,我认为这些正则表达式将使它高潮。:D



 类似资料:
  • 问题内容: 我如何制作像这样的python正则表达式,使得在给定的情况下,python匹配而不是? 我知道我可以使用代替,但是我正在寻找一种更通用的解决方案,使我的regex更加整洁。有什么办法告诉python“嘿,尽快匹配它”? 问题答案: 您寻找功能强大的吗? http://docs.python.org/3/howto/regex.html#greedy-versus-non-greedy

  • 问题内容: 我有下一个代码: 并具有下一个输出: 但我认为它必须是: 有人请解释为什么。 问题答案: 由于您的模式是非贪婪的,因此它们在仍由匹配项组成的情况下,匹配的文本越少越好。 去除 ?在第二组中,您会得到 单词 word word big small

  • 本文向大家介绍php正则表达式中贪婪与非贪婪介绍,包括了php正则表达式中贪婪与非贪婪介绍的使用技巧和注意事项,需要的朋友参考一下 一、贪婪与非贪婪 什么叫贪婪,比如说要从字符串中<td>面包一</td><td>面包二</td>吃面包,本来你只可以吃面包一,可是你贪心,于是就把第一个<td>到最后一个</td>里面的两个面包取出来了,你想多吃点,非贪婪也就是你不贪吃了,就只吃面包一。 我们来看看正

  • 我正在编写一个正则表达式来抓取之间的数据。我遇到的唯一问题是最后一个 正在被捕获。正则表达式 < code>m.group()打印< code > https://cheatsheetseries . owasp . org/Cheat sheets/click jacking _ Defense _ Cheat _ sheet . html " 。如何编写不包含最后一个引号的正则表达式? 回答了

  • 输出: 通缉犯:

  • 问题内容: 我正在使用jQuery。我有一个带有特殊字符块的字符串(开头和结尾)。我想从特殊字符块中获取文本。我使用正则表达式对象进行字符串内查找。但是当有两个或两个以上特殊字符时,如何告诉jQuery查找多个结果? 我的HTML: 和我的JavaScript代码: 我的结果是: [|cơthử|nghiệm|] thtr trng [| test2 |đâylàtestlần2 |]chứngk