当前位置: 首页 > 面试题库 >

正则表达式实现细节

庞书
2023-03-14
问题内容

我回答的问题让我感到奇怪:

如何在Python中实现正则表达式?有什么样的效率保证?实施是“标准”还是会更改?

我认为正则表达式将实现为DFA,因此非常有效(最多需要扫描输入字符串一次)。Laurence
Gonsalves提出了一个有趣的观点,即并非所有的Python正则表达式都是正则表达式。(他的示例是r“(a +)b \1”,它与一定数量的a,ab匹配,然后与之前相同的a数量匹配)。显然,这不能通过DFA实施。

因此,重申一下:Python正则表达式的实现细节和保证是什么?

如果有人可以(根据实现方式)对正则表达式“ cat | catdog”和“ catdog | cat”为何导致字符串“
catdog”中的搜索结果不同做出某种解释,这也很好。在我之前提到的问题中提到过。


问题答案:

Python的re模块基于PCRE,但已经转向他们自己的实现。

这是C代码的链接。

当采用了错误的路径时,似乎库是基于递归回溯的。

替代文字

正则表达式和文字大小n
吗?Ñ一个Ñ匹配Ñ

请记住,此图不代表正常的正则表达式搜索。

http://swtch.com/~rsc/regexp/regexp1.html



 类似资料:
  • 昨天,我需要向正则表达式添加一个文件路径,创建一个如下所示的模式: 一开始正则表达式不匹配,因为包含几个正则表达式特定的符号,如 或 。作为快速修复,我将它们替换为 和 . 与 . 然而,我问自己,是否没有一种更可靠或更好的方法来清除正则表达式特定符号中的字符串。 Python 标准库中是否支持此类功能? 如果没有,您是否知道一个正则表达式来识别所有正则表达式并通过替代品清理它们?

  • 我希望在我的项目中使用正则表达式模式进行验证。 下面是正则表达式模式的描述: > 长度必须至少为8个字符。 必须至少包含1个大小写字符。 必须包含至少1个小写字符。 必须包含至少1个数字。 可能包含以下字符: " 不得使用重复字符。(aa、11等) 不得使用超过3个连续字符。(abcd、wxyz、1234等)

  • 在 OpenResty 中,同时存在两套正则表达式规范:Lua 语言的规范和 ngx.re.* 的规范,即使您对 Lua 语言中的规范非常熟悉,我们仍不建议使用 Lua 中的正则表达式。一是因为 Lua 中正则表达式的性能并不如 ngx.re.* 中的正则表达式优秀;二是 Lua 中的正则表达式并不符合 POSIX 规范,而 ngx.re.* 中实现的是标准的 POSIX 规范,后者明显更具备通用

  • 一、概述 二、匹配单个字符 三、匹配一组字符 四、使用元字符 五、重复匹配 六、位置匹配 七、使用子表达式 八、回溯引用 九、前后查找 十、嵌入条件 参考资料 一、概述 正则表达式用于文本内容的查找和替换。 正则表达式内置于其它语言或者软件产品中,它本身不是一种语言或者软件。 正则表达式在线工具 二、匹配单个字符 . 可以用来匹配任何的单个字符,但是在绝大多数实现里面,不能匹配换行符; . 是元字

  • 这部分内容可以说是学习shell脚本之前必学的内容。如果你这部分内容学的越好,那么你的shell脚本编写能力就会越强。所以不要嫌这部分内容啰嗦,也不要怕麻烦,要用心学习。一定要多加练习,练习多了就能熟练掌握了。 在计算机科学中,正则表达式是这样解释的:它是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。在很多文本编辑器或其他工具里,正则表达式通常被用来检索和/或替换那些符合某个模

  • 正则表达式 有些人在面对问题时,不经大脑便认为,“我知道,这里该用正则表达式”。现在他要面对两个问题了。 ——Jamie Zawinski 如果只是在字符串中进行简单的文本搜索,不要使用正则表达式,比如 string['text']。 对于简单的构建操作,使用正则表达式作为索引即可。 match = string[/regexp/] # 获取匹配的内容 first_grou