问题：

Java-8正则表达式负lookbehind with'\R`

景英杰

2023-03-14

在回答另一个问题时，我编写了一个正则表达式来匹配所有空格，最多包括一个换行符。我对换行符匹配器使用负查找来完成此操作：

((?<!\R)\s)*

后来我想了想，我说，哦，不，如果有一个\r\n？它肯定会抓取第一个断行字符，然后我会被下一个字符串前面的伪字符卡住，对吗？

所以我回去测试（大概是修复）它。然而，当我测试该模式时，它匹配了整个\r\n。它不仅匹配\r，还留下\n正如人们所期望的那样。

"\r\n".matches("((?<!\\R)\\s)*"); // true, expected false

但是，当我使用文档中提到的“等效”模式时，它返回false。那么，这是Java的一个bug，还是有一个与之匹配的正当理由？

共有2个答案

段干跃

2023-03-14

匿名用户

实现#1。文档错误

资料来源：https://docs.oracle.com/javase/8/docs/api/java/util/regex/Pattern.html

这里说：

换线匹配器

。。。相当于\u000D\u000A |[\u000A\u000B\u000C\u000D\u0085\u2028\u2029]

但是，当我们尝试使用“等效”模式时，它返回false：

String _R_ = "\\R";
System.out.println("\r\n".matches("((?<!"+_R_+")\\s)*")); // true

// using "equivalent" pattern
_R_ = "\\u000D\\u000A|[\\u000A\\u000B\\u000C\\u000D\\u0085\\u2028\\u2029]";
System.out.println("\r\n".matches("((?<!"+_R_+")\\s)*")); // false

// now make it atomic, as per sln's answer
_R_ = "(?>"+_R_+")";
System.out.println("\r\n".matches("((?<!"+_R_+")\\s)*")); // true

所以Javadoc应该说：

。。。相当于（？

根据Sherman在Oracle JDK-8176029上于2017年3月9日更新：

“api文档没有错误，实现错误（当”0x0d 0x0a next“时，无法回溯”0x0d next.match（）”。match（）“失败）”

认识#2。回头看不仅仅是向后看

尽管有这个名字，一个lookback不仅能够向后看，而且可以包括甚至跳过当前位置。

考虑以下示例（来自rexegg.com）：

"_12_".replaceAll("(?<=_(?=\\d{2}_))\\d+", "##"); // _##_

“这很有意思，有几个原因。首先，我们在“向后看”中有一个“向前看”，即使我们应该向后看，这个“向前看”通过匹配两个数字和后面的下划线跳过当前位置。这很有技巧。”

这对于我们的示例来说意味着，即使我们的当前位置可能是，这也不会阻止后面的人识别出它的\R后面紧跟着\R，然后将两者作为一个原子组绑定在一起，从而拒绝将当前位置后面的部分识别为单独的匹配。

注意：为了简单起见，我使用了诸如“我们当前的位置是”之类的术语，但是这并不是内部发生的情况的精确表示。

辛承志

2023-03-14

构造\R是一个宏，它将子表达式包围成一个原子组（？

这就是为什么它不会把他们分开。

注意：如果Java在lookbehind中接受固定的替换，那么可以使用\R，但如果引擎不接受，则会引发异常。

Java-8正则表达式负lookbehind with'\R`

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档