当前位置：首页 > 面试题库 >

为什么\ R在Java 8和Java 9之间的正则表达式中表现不同？

司空俊悟

2023-03-14

问题内容：

以下代码在Java 8和9中都可以编译，但是行为不同。

class Simple {
    static String sample = "\nEn un lugar\r\nde la Mancha\nde cuyo nombre\r\nno quiero acordarme";

    public static void main(String args[]){
        String[] chunks = sample.split("\\R\\R");
        for (String chunk: chunks) {
            System.out.println("Chunk : "+chunk);
        }
    }
}

当我使用Java 8运行它时，它返回：

Chunk : 
En un lugar
de la Mancha
de cuyo nombre
no quiero acordarme

但是当我用Java 9运行它时，输出却不同：

Chunk : 
En un lugar
Chunk : de la Mancha
de cuyo nombre
Chunk : no quiero acordarme

为什么？

问题答案：

在Java文档是Unicode标准的一致性出来。Javadoc弄混了\R应该匹配的内容。内容为：

\R 任何Unicode换行符序列都等效于
\u000D\u000A|[\u000A\u000B\u000C\u000D\u0085\u2028\u2029]

该Java文档是错误的。在R1.6换行符的小节中，有关正则表达式的Unicode技术标准＃18明确指出：

强烈建议使用正则表达式元字符，例如“ \ R”，以匹配上面列出的所有行尾字符和序列（例如，在＃1中）。这将对应于以下表达式。
由于需要避免备份，因此该表达有些复杂。
 (?:\u{D A}|(?!\u{D A})[\u{A}-\u{D}\u{85}\u{2028}\u{2029}]

换句话说，它只能匹配两个码点CR + LF（回车+换行）序列 _ 或者从该组中的单个码点，只要它是不
只是单独一个回车然后后跟一个换行。这是因为 _ 不允许备份
。CRLF必须是原子的\R才能正常运行。

因此，Java 9不再符合R1.6的强烈建议。而且，它现在正在执行Java 8中本该不该做或不做的事情。

看来是时候该再给谢尔曼（沉学明）了。之前，我曾与他合作处理过正式合规的细节问题。

类似资料：

为什么Java和Perl中的正则表达式行为不同？

问题内容：我的理解是Java的正则表达式实现是基于Perl的。但是，在下面的示例中，如果我使用相同的字符串执行相同的regex，则Java和Perl返回不同的结果。这是Java示例：返回值：不匹配这是Perl的示例：返回：匹配项对我来说，Perl的结果很有意义。它寻找单个单词字符的匹配项。我不明白为什么Java不认为这是一个匹配。差异的原因是什么？问题答案： Java 方法正在测试正
为什么我的正则表达式在VB.NET中不匹配

我不知道为什么这个正则表达式不匹配。也许你能发现错误。 ficontents：我想匹配>>>>>>客户端9462<<<<<捕获该号码，以及此后的所有内容，直到另一个客户端号码。所以我的第一个捕获是“9462”，第二个捕获是“Had a program exception；please check the error log”。它使用JavaScript设置在regex101.com中工作得很好
^和$在正则表达式中是什么意思？

和？我试着在谷歌上搜索，但没有成功。
Python 和 Java 正则表达式在使用相同的正则表达式时行为不同

有几个问题，但没有回答我的问题。我希望使用pattern和matcher在字符串中找到一个模式，然后从那里创建一个匹配列表，其中包括不匹配的其余部分。我目前的结果：假的我的预期结果应该在列表中: ["125t"，"160f"]//我知道如何在python中做到这一点，但不知道如何在java中做到这一点。所以有人能帮我吗？
*与+正则表达式之间的差异

有人能告诉我以下示例中的和运算符之间的区别吗：
正则表达式：什么是InCombiningDiacriticalMarks？

问题内容：以下代码是众所周知的将重音符转换为纯文本的代码：我用这种方法代替了“手工制作”方法，但是我需要了解replaceAll的“ regex”部分 1）什么是“ InCombiningDiacriticalMarks”？ 2）它的文档在哪里？（和类似的？）谢谢。问题答案：是Unicode块属性。在JDK7中，您将可以使用两部分表示法来编写它，这对于读者来说可能更清楚。它在UAX＃44

相关阅读

“ [^] []”正则表达式是什么意思？正则表达式和GWT 正则表达式和unicode 两个正则表达式之间的区别：[abc] +和（[abc]）+算术表达式的正则表达式

相关文章

Ruby 正则表达式 MongoDB正则表达式 C#正则表达式 Java正则表达式正则表达式 - 示例

相关问答

用正则表达式在斯威夫表达式中查找R代码与正则表达式匹配的正则表达式不考虑空间的正则表达式正则表达式不在括号中正则表达式和preg_match

相关工具

正则表达式测试器 WizTools.org正则表达式测试工具 Quartz 表达式生成器卡片式插入列表瀑布效果，不同的实现方式

相关文档

正则表达式正则表达式（regular expression）Java 正则表达式教程 java.util.regex 正则表达式中文教程 Python 正则表达式操作指南