问题：

中日韩正则表达式模式

苏高旻

2023-03-14

接受来自CJK字符集（中文、日文、韩文）除特殊字符外的所有字符和数字（0-9）的正则表达式模式可以是什么？

共有1个答案

聂翼

2023-03-14

此信息从UCD界面收集
这是最新的Unicode 10信息。
输出为88,964个字符。

从界面：

使用CJK的属性搜索，它们被添加到自定义Rx页面中，同时
筛选器，即它们必须是字母或数字，并且有一个指定的插槽。

正则表达式的

 # CJK et all
 [\p{Block=CJK_Compatibility}\p{Block=CJK_Compatibility_Forms}\p{Block=CJK_Compatibility_Ideographs}\p{Block=CJK_Compatibility_Ideographs_Supplement}\p{Block=CJK_Radicals_Supplement}\p{Block=CJK_Strokes}\p{Block=CJK_Symbols_And_Punctuation}\p{Block=CJK_Unified_Ideographs}\p{Block=CJK_Unified_Ideographs_Extension_A}\p{Block=CJK_Unified_Ideographs_Extension_B}\p{Block=CJK_Unified_Ideographs_Extension_C}\p{Block=CJK_Unified_Ideographs_Extension_D}\p{Block=CJK_Unified_Ideographs_Extension_E}\p{Block=CJK_Unified_Ideographs_Extension_F}\p{Block=Enclosed_CJK_Letters_And_Months}] 
 # Must be letters or numbers
 (?<= [\p{L}\p{N}] )
 # Leave out the unassigned slots
 (?<! \p{General_Category=Unassigned} )

输出转换为UTF-8/32

 (?:
      [\x{3005}-\x{3007}\x{3021}-\x{3029}\x{3031}-\x{3035}\x{3038}-\x{303C}\x{3220}-\x{3229}\x{3248}-\x{324F}\x{3251}-\x{325F}\x{3280}-\x{3289}\x{32B1}-\x{32BF}\x{3400}-\x{4DB5}\x{4E00}-\x{9FEA}\x{F900}-\x{FA6D}\x{FA70}-\x{FAD9}\x{20000}-\x{2A6D6}\x{2A700}-\x{2B734}\x{2B740}-\x{2B81D}\x{2B820}-\x{2CEA1}\x{2CEB0}-\x{2EBE0}\x{2F800}-\x{2FA1D}]
 )

输出转换为UTF-16

 (?:
      [\x{3005}-\x{3007}\x{3021}-\x{3029}\x{3031}-\x{3035}\x{3038}-\x{303C}\x{3220}-\x{3229}\x{3248}-\x{324F}\x{3251}-\x{325F}\x{3280}-\x{3289}\x{32B1}-\x{32BF}\x{3400}-\x{4DB5}\x{4E00}-\x{9FEA}\x{F900}-\x{FA6D}\x{FA70}-\x{FAD9}] 
   |  
      (?:
           [\x{D840}-\x{D868}] [\x{DC00}-\x{DFFF}] 
        |  \x{D869} [\x{DC00}-\x{DED6}\x{DF00}-\x{DFFF}] 
        |  [\x{D86A}-\x{D86C}] [\x{DC00}-\x{DFFF}] 
        |  \x{D86D} [\x{DC00}-\x{DF34}\x{DF40}-\x{DFFF}] 
        |  \x{D86E} [\x{DC00}-\x{DC1D}\x{DC20}-\x{DFFF}] 
        |  [\x{D86F}-\x{D872}] [\x{DC00}-\x{DFFF}] 
        |  \x{D873} [\x{DC00}-\x{DEA1}\x{DEB0}-\x{DFFF}] 
        |  [\x{D874}-\x{D879}] [\x{DC00}-\x{DFFF}] 
        |  \x{D87A} [\x{DC00}-\x{DFE0}] 
        |  \x{D87E} [\x{DC00}-\x{DE1D}]
      )
 )

类似资料：

韩国文字的正则表达式

我需要用正则表达式提取单词中''之前和''之前的韩文字母。 458 138->提取“”和“” 1600->提取“” 我有[^\X00-\X7F]+（？=）[^\X00-\X7F]+（？=）。但这并不是对所有人都有效
Java正则表达式模式

问题内容：我需要这件事的帮助。查看以下正则表达式：我想查找这样的词：“自制”，“ aaaa-bbb”而不是“ aaa-bbb”，而不是 “ aaa–aa–aaa”。基本上，我想要以下内容：单词-连字符-单词。它适用于所有内容，但该模式会通过：“ aaa–aaa–aaa”，但不应通过。哪种正则表达式适用于此模式？问题答案：可以从表达式中删除反斜杠：下面的代码应该工作请注意，您可以使
模式的正则表达式？

我需要编写一个具有以下规则的正则表达式： null null 这些示例无效： > 12--11（因为它包含两个连字符） 1-2345（因为它包含5号） <>是字符出现在最后一个位置，那么在字符之前必须有一个数字not hypen。即11-A（必须不及格）11-1A（必须及格）
模式的正则表达式

我是正则表达式的初学者，并尝试搜索特定的数字模式。以下数据以 XML 格式嵌入。要求是提取数据(最里面的列表)。在这个例子中，数据从24779开始到24760。注意:每次数据可能不是从“24”开始。因此，我计划通过以下逻辑提取:如果标签名(在本例中:DUT_1_PC)具有非零的有效数据，并且有效数据的计数大于100，用逗号分隔，则提取该列表及其标签名(DUT_1_PC)。我无法提取所需的数据。
正则表达式模块

为什么要学正则表达式实际上爬虫一共就四个主要步骤：明确目标 (要知道你准备在哪个范围或者网站去搜索) 爬 (将所有的网站的内容全部爬下来) 取 (去掉对我们没用处的数据) 处理数据（按照我们想要的方式存储和使用）我们在昨天的案例里实际上省略了第3步，也就是”取”的步骤。因为我们down下了的数据是全部的网页，这些数据很庞大并且很混乱，大部分的东西使我们不关心的，因此我们需要将之按我们的需要过
正则表达式如何处理正则表达式模式中的^或$？

我正在尝试使用python中的正则表达式。我构建了正则表达式，如下所示。我知道用于匹配搜索字符串的开头。我已使用包含多个的匹配模式构建框架，但我不确定将如何尝试匹配搜索字符串中的模式。我预计会引发错误，关于无效的正则表达式，但它不会引发任何错误，也不会返回任何匹配项。所以，我的问题是或是有效的正则表达式吗？

中日韩正则表达式模式

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档