当前位置: 首页 > 编程笔记 >

String.replaceAll方法详析(正则妙用)

冯阳成
2023-03-14
本文向大家介绍String.replaceAll方法详析(正则妙用),包括了String.replaceAll方法详析(正则妙用)的使用技巧和注意事项,需要的朋友参考一下

前言

我通常是不太关心代码的具体实现的,因为我的开发语言很杂,倾向于一些最简单通用的方式去解决。今儿不小心在群里看到一位朋友发了下面的java代码,感觉自己还是很局限很无知的:

String str1 = "createTime";
String str2 = "createTimeAt";
String regex = "([A-Z])+";

System.out.println(str1.replaceAll(regex, "_$1").toLowerCase());
System.out.println(str2.replaceAll(regex, "_$1").toLowerCase());

//result
//create_time
//create_time_at

通过输出可以看到,这段代码的作用是把驼峰命名格式的字符串替换成下划线分割,这个功能比较简单,但是吸引我的却是他的代码。

"createTime".replaceAll("([A-Z]+)","_$1")

这行代码简单的很,就是调用了String类的replaceAll方法,方法的第一个参数是正则表达式,第二个参数是将要被替换成的新值。

让我惊奇的是他代码中,replaceAll的第二个参数,也就是JDK文档中名为replacement的参数,竟然是_$1。这是什么鬼?还支持类似占位符这样的东西?我一直都不知道。

问题探索

由于之前研究过一段正则表达式,通过观察replaceAll的第一个参数([A-Z]+),我猜想,这个应该是用到了正则表达式的分组,对应JDK中,就是java.util.regex.Matcher类的group()方法。

在Linux的Sed命令上,就使用&进行了一些替换,道理应该是相通的。

于是看了下String.replaceAll方法是如何实现的。JDK:

public String replaceAll(String regex, String replacement) {
    return Pattern.compile(regex).matcher(this).replaceAll(replacement);
}

哦,原来它底层就是用了Matcher,只不过用的是Matcher自己的replaceAll方法。

去看它的文档,这个方法的参数果然有鬼,看下面实现代码。

public String replaceAll(String replacement) {
    reset();
    boolean result = find();
    if (result) {
      StringBuilder sb = new StringBuilder();
      do {
        appendReplacement(sb, replacement);
        result = find();
      } while (result);
      appendTail(sb);
      return sb.toString();
    }
    return text.toString();
  }

里面关键的部分就是文档中说的appendReplacement方法,然后可以看到详细的描述文档。

看到这里明白了,原来这个方法的replacement参数可以通过$字符来指代Matcher通过正则匹配得到的分组,支持name和number 两种方式,这里对应的就是Matcher类的group(name)和group(int)两个方法。

结论

1、String的replaceAll方法实际上是通过java.util.regex.Matcher类的replaceAll()方法实现的。

2、java.util.regex.Matcher类的replaceAll方法又是通过调用appendReplacement方法实现替换逻辑

3、Matcher类的appendReplacement方法的replacement参数支持通过$符号来指代Matcher匹配的分组

下面这串代码,就是使用Matcher类分组的一个最佳实践。

String data = "哈哈哈,xjjdog的手机号码是:12345678901,你会打给我吗";
//通过Matcher的分组功能,可以提取出上面字符串中的手机号
Matcher matcher = Pattern.compile(".*(xjjdog的手机号码是:([0-9]{11}))").matcher(data);
while (matcher.find()) {
  System.out.println("G0:" + matcher.group(0));
  System.out.println("G1:" + matcher.group(1));
  System.out.println("G2:" + matcher.group(2));
}
//result
//G0:哈哈哈,xjjdog的手机号码是:12345678901
//G1:xjjdog的手机号码是:12345678901
//G2:12345678901

group(0)表示整个字符串

group(1)表示第一个匹配的,上面的例子中就是(我的手机号码是:([0-9]{11}))部分

group(2)表示第二个匹配的,上面的例子中就是([0-9]{11})部分

使用分组可以用来提取字符串中的目标字符串值,很好用!

几个例子

下面是几个例子,大家可以触类旁通。

驼峰转下划线命名

public static String camelToUnderline(String camelName) {
return camelName.replaceAll("([A-Z]+)", "_$1").toLowerCase();
}

下划线转驼峰

这个稍微麻烦点,是模仿者Matcher.replaceAll方法写的。

public static String underlineToCamel(String underlineName) {
    Matcher matcher = Pattern.compile("(_[a-z]{1})").matcher(underlineName);
    StringBuffer result = new StringBuffer();
    while (matcher.find()) {
      String replacement = matcher.group(1);
      matcher.appendReplacement(result, replacement.replace("_", "").toUpperCase());
    }
    matcher.appendTail(result);
    return result.toString();
}

另外,Mybatis Generator插件源码中的也提供了类似方法(JavaBeansUtil.getCamelCaseString),这里做了下简单修改

 public static String getCamelCaseString(String inputString) {
    StringBuilder sb = new StringBuilder();
    boolean nextUpperCase = false;
    for (int i = 0; i < inputString.length(); i++) {
      char c = inputString.charAt(i);
      switch (c) {
        case '_':
        case '-':
        case '@':
        case '$':
        case '#':
        case ' ':
        case '/':
        case '&':
          if (sb.length() > 0) {
            nextUpperCase = true;
          }
          break;
        default:
          if (nextUpperCase) {
            sb.append(Character.toUpperCase(c));
            nextUpperCase = false;
          } else {
            sb.append(Character.toLowerCase(c));
          }
          break;
      }
    }
    return sb.toString();
  }

没有复杂的正则参与,速度显而快了不少。

总结

看一些优秀的开源代码,确实能够了解到一些实用的技巧。这比起自己费劲心力重复制造一些轮子,要高效的多。时间要用在刀刃上,但不是用来切豆腐。

好了,以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对小牛知识库的支持。

 类似资料:
  • 问题内容: 用java 方法剥离输入的字符串(如MY-CORP \ My.Name)中的MY-CORP \部分的正则表达式是什么,这样我只能得到My.Name部分? 我试过了 但是我 在索引4 ^附近 遇到了 意外的内部错误。 * 问题答案: 您的问题是反斜杠在Java字符串和正则表达式中都有特殊含义。因此,您需要在Java源代码中使用四个斜杠,将两个斜杠传递给regex解析器以在regex中获得

  • 问题内容: 我有一个包含以下文本的字符串 我想将每个 孤立的 br 替换为 问题是我想避免将字符串转换为 我想做的是将字符串(使用replaceAll)转换为 我敢肯定这很简单,但是我的正则表达式不正确。 我的正则表达式 应该 找到“空白”,“ b”,“ r”,“空白”或“空白”,“ b”,“ r”,“行尾” 但是它错过了我字符串中的最后一个“ br” 我究竟做错了什么??TKS! 问题答案: 用

  • 问题内容: 我正在编辑从tesseract ocr获得的一些电子邮件。 这是我的代码: 但是输出不正确。 输入: 输出: 但是,当我在每次替换后将结果分配给新的String时,它都能正常工作。为什么在同一字符串中连续分配不起作用? 问题答案: 您将在Javadoc中的String.replaceAll()中注意到,第一个参数是正则表达式。 句点()和管道()以及花括号()都有特殊的含义。您需要对它

  • 本文向大家介绍PHP中PCRE正则解析代码详解,包括了PHP中PCRE正则解析代码详解的使用技巧和注意事项,需要的朋友参考一下 一、前言 前面的博客里,有对字符集的解析。这里就不是字符集的事儿了,在PHP中很多函数的处理默认是unicode中的UTF-8编码格式。那么废话不多说,直接开始正题。 二、PHP函数mb_split解析 输出效果 此函数默认底层解析,以UTF-8的编码格式解析。以分隔符(

  • 本文向大家介绍Python中正则表达式的巧妙使用一文包你必掌握正则,包括了Python中正则表达式的巧妙使用一文包你必掌握正则的使用技巧和注意事项,需要的朋友参考一下 前言 正则表达式就是从字符串中发现规律,并通过“抽象”的符号表达出来。打个比方,对于2,5,10,17,26,37这样的数字序列,如何计算第7个值,肯定要先找该序列的规律,然后用n2+1这个表达式来描述其规律,进而得到第7个值为50

  • 本文向大家介绍jQuery正则表达式的使用方法步骤详解,包括了jQuery正则表达式的使用方法步骤详解的使用技巧和注意事项,需要的朋友参考一下  本文主要和大家分享的就是jQuery学习中正则的使用,正则在jquery里面并没有比JavaScript多哪些知识,基本上是一样的,只是选择器更好了一点,一起来看看吧。 基础正则 1、正则表达式的创建 2、常用规则 3、方式:test 案例 效果演示图