当前位置：首页 > 面试题库 >

正则表达式和unicode

贲绪

2023-03-14

问题内容：

我有一个脚本，可以分析电视剧集的文件名（例如show.name.s01e02.avi），获取剧集的名称（从www.thetvdb.com
API），然后自动将其重命名为更好的名称（显示名-[01x02 ] .avi）

该脚本可以正常工作，直到您尝试在具有Unicode显示名称的文件上使用该脚本为止（我从未真正考虑过这一点，因为我拥有的所有文件都是英文的，所以大部分都属于[a-zA-Z0-9'\-]）

如何允许正则表达式匹配带重音符号的字符？当前正则表达式的配置部分看起来像..

config['valid_filename_chars'] = """0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!@£$%^&*()_+=-[]{}"'.,<>`~? """
config['valid_filename_chars_regex'] = re.escape(config['valid_filename_chars'])

config['name_parse'] = [
    # foo_[s01]_[e01]
    re.compile('''^([%s]+?)[ \._\-]\[[Ss]([0-9]+?)\]_\[[Ee]([0-9]+?)\]?[^\\/]*$'''% (config['valid_filename_chars_regex'])),
    # foo.1x09*
    re.compile('''^([%s]+?)[ \._\-]\[?([0-9]+)x([0-9]+)[^\\/]*$''' % (config['valid_filename_chars_regex'])),
    # foo.s01.e01, foo.s01_e01
    re.compile('''^([%s]+?)[ \._\-][Ss]([0-9]+)[\.\- ]?[Ee]([0-9]+)[^\\/]*$''' % (config['valid_filename_chars_regex'])),
    # foo.103*
    re.compile('''^([%s]+)[ \._\-]([0-9]{1})([0-9]{2})[\._ -][^\\/]*$''' % (config['valid_filename_chars_regex'])),
    # foo.0103*
    re.compile('''^([%s]+)[ \._\-]([0-9]{2})([0-9]{2,3})[\._ -][^\\/]*$''' % (config['valid_filename_chars_regex'])),
]

问题答案：

根据需要使用子范围[\u0000-\uFFFF]。

您也可以使用re.UNICODE编译标志。文档说如果UNICODE设置，\w将匹配字符[0-9_]以及Unicode字符属性数据库中分类为字母数字的任何字符。

另请参见http://coding.derkeiler.com/Archive/Python/comp.lang.python/2004-05/2560.html。

类似资料：

正则表达式和GWT

问题内容：我的问题是：在GWT中使用正则表达式是否有很好的解决方案？例如，我对String.split（regex）的使用不满意。GWT将代码转换为JS，然后将正则表达式用作JS正则表达式。但是我不能使用Java Matcher或Java Pattern之类的东西。但是我需要这些来进行组匹配。有没有可能或图书馆？我尝试了Jakarta Regexp，但是还有其他问题，因为GWT不能模拟该库
正则表达式和preg_match

我想做一个正则表达式来匹配这些字符串之一：、、、。我的正则表达式只能接受以下字符串（而不是其他单词）：这是我当前的正则表达式，但它不能按预期工作：编辑如果在我的字符串中它们是：如果它们是其他单词或符号，则返回 false。谢谢大家。
转义正则表达式的正则表达式

昨天，我需要向正则表达式添加一个文件路径，创建一个如下所示的模式：一开始正则表达式不匹配，因为包含几个正则表达式特定的符号，如或。作为快速修复，我将它们替换为和 . 与 . 然而，我问自己，是否没有一种更可靠或更好的方法来清除正则表达式特定符号中的字符串。 Python 标准库中是否支持此类功能？如果没有，您是否知道一个正则表达式来识别所有正则表达式并通过替代品清理它们？
正则表达式

在 OpenResty 中，同时存在两套正则表达式规范：Lua 语言的规范和 ngx.re.* 的规范，即使您对 Lua 语言中的规范非常熟悉，我们仍不建议使用 Lua 中的正则表达式。一是因为 Lua 中正则表达式的性能并不如 ngx.re.* 中的正则表达式优秀；二是 Lua 中的正则表达式并不符合 POSIX 规范，而 ngx.re.* 中实现的是标准的 POSIX 规范，后者明显更具备通用
正则表达式

一、概述二、匹配单个字符三、匹配一组字符四、使用元字符五、重复匹配六、位置匹配七、使用子表达式八、回溯引用九、前后查找十、嵌入条件参考资料一、概述正则表达式用于文本内容的查找和替换。正则表达式内置于其它语言或者软件产品中，它本身不是一种语言或者软件。正则表达式在线工具二、匹配单个字符 . 可以用来匹配任何的单个字符，但是在绝大多数实现里面，不能匹配换行符； . 是元字
正则表达式

这部分内容可以说是学习shell脚本之前必学的内容。如果你这部分内容学的越好，那么你的shell脚本编写能力就会越强。所以不要嫌这部分内容啰嗦，也不要怕麻烦，要用心学习。一定要多加练习，练习多了就能熟练掌握了。在计算机科学中，正则表达式是这样解释的：它是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。在很多文本编辑器或其他工具里，正则表达式通常被用来检索和/或替换那些符合某个模

相关阅读

Hibernate正则表达式 SQL正则表达式 JavaScript + Unicode正则表达式 Python和带Unicode的正则表达式算术表达式的正则表达式

相关文章

Ruby 正则表达式 MongoDB正则表达式 C#正则表达式 Java正则表达式正则表达式 - 示例

相关问答

音乐和弦正则表达式模式的正则表达式？模式的正则表达式 Java正则表达式群 >>正则表达式匹配

相关工具

正则表达式测试器 WizTools.org正则表达式测试工具 Quartz 表达式生成器卡片式插入列表闻达

相关文档

正则表达式正则表达式（regular expression）Java 正则表达式教程 Python 正则表达式操作指南 java.util.regex 正则表达式中文教程