我正在制作一个键值解析器,其中输入字符串采用的形式key:"value",key2:"value"
。键可以包含字符a-z
,A-Z
并且0-9
和值可以包含任何字符,但:
,,
,"
和\
需要用反斜杠前缀。逗号用于分隔键值对,但在最后一对之后不需要。
到目前为止,我已经([a-zA-Z0-9]+):"(.*)"
可以匹配大多数键和值,但是很显然它将不能处理多于一对的字符或者任何“控制”字符都不能转义。(?<=\\)[:,"\\]
似乎匹配所有转义字符,但不匹配任何“正常”字符。
有没有办法检查逗号分隔并匹配所有转义的“控制”字符以及普通字符?这是不是更适合没有正则表达式的实现的东西吗?还是需要顺序使用多个模式?
一些例子:
输入:joe:"bread",sam:"fish"
输出:joe -> bread
sam -> fish
输入:joe:"Look over there\, it's a shark!",sam:"I like fish."
输出:joe -> Look over there, it's a shark!
sam -> I like fish
假定\
除行终止符之外的任何字符都指定紧随其后的字符。
您可以使用以下正则表达式来匹配键值对的所有实例:
"([a-zA-Z0-9]+):\"((?:[^\\\\\"]|\\\\.)*+)\""
如果要允许自由间距\\s*
,请在之前和之后添加:
。
这是正则表达式引擎看到的内容:
([a-zA-Z0-9]+):"((?:[^\\"]|\\.)*+)"
量词*
由所有格*+
,由于2个分支[^\\"]
并\\.
是互斥(没有字符串可由两个在同一时间相匹配)。它还避免StackOverflowError
了在Oracle的实现Pattern
类。
在Matcher循环中使用上述正则表达式:
Pattern keyValuePattern = Pattern.compile("([a-zA-Z0-9]+):\"((?:[^\\\\\"]|\\\\.)*+)\"");
Matcher matcher = keyValuePattern.matcher(inputString);
while (matcher.find()) {
String key = matcher.group(1);
// Process the escape sequences in the value string
String value = matcher.group(2).replaceAll("\\\\(.)", "$1");
// ...
}
在一般的情况下,根据不同的转义序列的复杂性(例如\n
,\uhhhh
,\xhh
,\0
),你可能会想要写一个单独的函数来分析它们。但是,基于上述假设,单线就足够了。
请注意,尽管如此,该解决方案并不关心分隔符。并且它将在无效输入上跳至最接近的匹配项。在下面的无效输入示例中,以上解决方案将abc:"
在开头跳过并愉快地将xyz:"text text"
amd more:"pair"
作为键值对进行匹配:
abc:"xyz:"text text", more:"pair"
如果这种行为不是所希望的,那么有一个解决方案,但是必须首先隔离包含所有键值对的字符串,而不是使其成为与键值对没有任何关系的更大字符串的一部分:
"(?:^|(?!^)\\G,)([a-zA-Z0-9]+):\"((?:[^\\\\\"]|\\\\.)*+)\""
免费版本:
"(?:^\s*|(?!^)\\G\s*,\s*)([a-zA-Z0-9]+)\s*:\s*\"((?:[^\\\\\"]|\\\\.)*+)\""
我们得到了一些这样的内容:
有没有一种方法可以在python中编写与以下格式的字符串匹配的正则表达式: 或 在这里,$=表示零或更多的空白可以存在 :来自字符串的固定子集的字符串['feat','fix','docs','断'] :最大长度为n的字符串 :最大长度为m的字符串 前缀应该始终是一个字符串,之后是一些最大q长度的字母数字字符 注意:我们不能省略像应该使用与下面示例中所示完全相同的格式: feat(feat new
有没有人试图描述与正则表达式匹配的正则表达式? 由于重复的关键字,这个主题几乎不可能在网上找到。 它可能在实际应用程序中不可用,因为支持正则表达式的语言通常具有解析它们的方法,我们可以将其用于验证,以及一种在代码中分隔正则表达式的方法,可用于搜索目的。 但是我仍然想知道匹配所有正则表达式的正则表达式是什么样子的。应该可以写一个。
主要内容:基本模式匹配,字符簇,确定重复出现基本模式匹配 一切从最基本的开始。模式,是正则表达式最基本的元素,它们是一组描述字符串特征的字符。模式可以很简单,由普通的字符串组成,也可以非常复杂,往往用特殊的字符表示一个范围内的字符、重复出现,或表示上下文。例如: 这个模式包含一个特殊的字符 ^,表示该模式只匹配那些以 once 开头的字符串。例如该模式与字符串 "once upon a time" 匹配,与 "There once was
问题内容: 当字符串以数字开头时,我需要匹配,然后是一个点,然后是一个空格和1个或多个大写字符。匹配必须发生在字符串的开头。我有以下字符串。 我尝试过的正则表达式是: 它不匹配。一个有效的正则表达式将对这个问题有什么作用? 问题答案: (对不起,我先前的错误。大脑现在坚定地投入了。嗯,也许。) 这有效: 分解: =字符串开头 =一个或多个数字 (之所以转义,是因为它在字符串中,因此) =文字(或者
问题内容: 我从以下格式的文件中获取输入: 现在,我想在我的Java代码中读取int1,int2,int3和int4。我该如何在Java中使用正则表达式匹配。谢谢。 问题答案: 为了避免空值: