当前位置: 首页 > 面试题库 >

匹配键值模式正则表达式

唐腾
2023-03-14
问题内容

我正在制作一个键值解析器,其中输入字符串采用的形式key:"value",key2:"value"。键可以包含字符a-zA-Z并且0-9和值可以包含任何字符,但:,"\需要用反斜杠前缀。逗号用于分隔键值对,但在最后一对之后不需要。

到目前为止,我已经([a-zA-Z0-9]+):"(.*)"可以匹配大多数键和值,但是很显然它将不能处理多于一对的字符或者任何“控制”字符都不能转义。(?<=\\)[:,"\\]似乎匹配所有转义字符,但不匹配任何“正常”字符。

有没有办法检查逗号分隔并匹配所有转义的“控制”字符以及普通字符?这是不是更适合没有正则表达式的实现的东西吗?还是需要顺序使用多个模式?

一些例子:

输入:joe:"bread",sam:"fish"输出:joe -> bread sam -> fish

输入:joe:"Look over there\, it's a shark!",sam:"I like fish."输出:joe -> Look over there, it's a shark! sam -> I like fish


问题答案:

假定\除行终止符之外的任何字符都指定紧随其后的字符。

您可以使用以下正则表达式来匹配键值对的所有实例

"([a-zA-Z0-9]+):\"((?:[^\\\\\"]|\\\\.)*+)\""

如果要允许自由间距\\s*,请在之前和之后添加:

这是正则表达式引擎看到的内容:

([a-zA-Z0-9]+):"((?:[^\\"]|\\.)*+)"

量词*由所有格*+,由于2个分支[^\\"]\\.是互斥(没有字符串可由两个在同一时间相匹配)。它还避免StackOverflowError了在Oracle的实现Pattern类。

在Matcher循环中使用上述正则表达式:

Pattern keyValuePattern = Pattern.compile("([a-zA-Z0-9]+):\"((?:[^\\\\\"]|\\\\.)*+)\"");
Matcher matcher = keyValuePattern.matcher(inputString);

while (matcher.find()) {
    String key = matcher.group(1);

    // Process the escape sequences in the value string
    String value = matcher.group(2).replaceAll("\\\\(.)", "$1");

    // ...
}

在一般的情况下,根据不同的转义序列的复杂性(例如\n\uhhhh\xhh\0),你可能会想要写一个单独的函数来分析它们。但是,基于上述假设,单线就足够了。

请注意,尽管如此,该解决方案并不关心分隔符。并且它将在无效输入上跳至最接近的匹配项。在下面的无效输入示例中,以上解决方案将abc:"在开头跳过并愉快地将xyz:"text text"amd more:"pair"作为键值对进行匹配:

abc:"xyz:"text text", more:"pair"

如果这种行为不是所希望的,那么有一个解决方案,但是必须首先隔离包含所有键值对的字符串,而不是使其成为与键值对没有任何关系的更大字符串的一部分:

"(?:^|(?!^)\\G,)([a-zA-Z0-9]+):\"((?:[^\\\\\"]|\\\\.)*+)\""

免费版本:

"(?:^\s*|(?!^)\\G\s*,\s*)([a-zA-Z0-9]+)\s*:\s*\"((?:[^\\\\\"]|\\\\.)*+)\""


 类似资料:
  • 我们得到了一些这样的内容:

  • 有没有一种方法可以在python中编写与以下格式的字符串匹配的正则表达式: 或 在这里,$=表示零或更多的空白可以存在 :来自字符串的固定子集的字符串['feat','fix','docs','断'] :最大长度为n的字符串 :最大长度为m的字符串 前缀应该始终是一个字符串,之后是一些最大q长度的字母数字字符 注意:我们不能省略像应该使用与下面示例中所示完全相同的格式: feat(feat new

  • 有没有人试图描述与正则表达式匹配的正则表达式? 由于重复的关键字,这个主题几乎不可能在网上找到。 它可能在实际应用程序中不可用,因为支持正则表达式的语言通常具有解析它们的方法,我们可以将其用于验证,以及一种在代码中分隔正则表达式的方法,可用于搜索目的。 但是我仍然想知道匹配所有正则表达式的正则表达式是什么样子的。应该可以写一个。

  • 主要内容:基本模式匹配,字符簇,确定重复出现基本模式匹配 一切从最基本的开始。模式,是正则表达式最基本的元素,它们是一组描述字符串特征的字符。模式可以很简单,由普通的字符串组成,也可以非常复杂,往往用特殊的字符表示一个范围内的字符、重复出现,或表示上下文。例如: 这个模式包含一个特殊的字符 ^,表示该模式只匹配那些以 once 开头的字符串。例如该模式与字符串 "once upon a time" 匹配,与 "There once was

  • 问题内容: 当字符串以数字开头时,我需要匹配,然后是一个点,然后是一个空格和1个或多个大写字符。匹配必须发生在字符串的开头。我有以下字符串。 我尝试过的正则表达式是: 它不匹配。一个有效的正则表达式将对这个问题有什么作用? 问题答案: (对不起,我先前的错误。大脑现在坚定地投入了。嗯,也许。) 这有效: 分解: =字符串开头 =一个或多个数字 (之所以转义,是因为它在字符串中,因此) =文字(或者

  • 问题内容: 我从以下格式的文件中获取输入: 现在,我想在我的Java代码中读取int1,int2,int3和int4。我该如何在Java中使用正则表达式匹配。谢谢。 问题答案: 为了避免空值: