问题：

\d效率低于[0-9]

苏宏峻

2023-03-14

今天我决定测试一下，结果我惊讶地发现（至少在C#正则表达式引擎中）\d似乎比其他两个没有太大区别的代码效率要低。下面是我测试输出的10000个由1000个随机字符组成的字符串，其中5077个实际包含一个数字：

Regex \d           took 00:00:00.2141226 result: 5077/10000
Regex [0-9]        took 00:00:00.1357972 result: 5077/10000  63.42 % of first
Regex [0123456789] took 00:00:00.1388997 result: 5077/10000  64.87 % of first

这对我来说是一个惊喜，有两个原因，如果有人能给我一些启示，我会很感兴趣：

我本以为范围的实现会比集合的实现效率高得多。
我不能理解为什么\d比[0-9]差。除了[0-9]的简写之外，\d还有其他内容吗？

下面是测试代码：

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Diagnostics;
using System.Text.RegularExpressions;

namespace SO_RegexPerformance
{
    class Program
    {
        static void Main(string[] args)
        {
            var rand = new Random(1234);
            var strings = new List<string>();
            //10K random strings
            for (var i = 0; i < 10000; i++)
            {
                //generate random string
                var sb = new StringBuilder();
                for (var c = 0; c < 1000; c++)
                {
                    //add a-z randomly
                    sb.Append((char)('a' + rand.Next(26)));
                }
                //in roughly 50% of them, put a digit
                if (rand.Next(2) == 0)
                {
                    //replace 1 char with a digit 0-9
                    sb[rand.Next(sb.Length)] = (char)('0' + rand.Next(10));
                }
                strings.Add(sb.ToString());
            }

            var baseTime = testPerfomance(strings, @"\d");
            Console.WriteLine();
            var testTime = testPerfomance(strings, "[0-9]");
            Console.WriteLine("  {0:P2} of first", testTime.TotalMilliseconds / baseTime.TotalMilliseconds);
            testTime = testPerfomance(strings, "[0123456789]");
            Console.WriteLine("  {0:P2} of first", testTime.TotalMilliseconds / baseTime.TotalMilliseconds);
        }

        private static TimeSpan testPerfomance(List<string> strings, string regex)
        {
            var sw = new Stopwatch();

            int successes = 0;

            var rex = new Regex(regex);

            sw.Start();
            foreach (var str in strings)
            {
                if (rex.Match(str).Success)
                {
                    successes++;
                }
            }
            sw.Stop();

            Console.Write("Regex {0,-12} took {1} result: {2}/{3}", regex, sw.Elapsed, successes, strings.Count);

            return sw.Elapsed;
        }
    }
}

共有1个答案

窦夜洛

2023-03-14

\d检查所有Unicode数字，而[0-9]仅限于这10个字符。例如，波斯语数字是Unicode数字的一个例子，它与\d匹配，但不与[0-9]匹配。

您可以使用以下代码生成所有此类字符的列表：

var sb = new StringBuilder();
for(UInt16 i = 0; i < UInt16.MaxValue; i++)
{
    string str = Convert.ToChar(i).ToString();
    if (Regex.IsMatch(str, @"\d"))
        sb.Append(str);
}
Console.WriteLine(sb.ToString());

它生成：

类似资料：

低效率的EhCache性能

问题内容：使用这些JPA属性 Ehcache对于同一查询效率不高，问题与QueryCache类的namedParameters.hashCode（）函数有关，它为同一查询生成了不同的HashCode！与班级有关它将为同一Array对象[01，1]生成一个不同的（新）hachCode！对于数组，此hashCode方法应该是递归的问题答案：递归版本完全正常类org.hibernate.
效率低下的EhCache性能

使用thoses和JPA属性 Ehcache对于相同的查询不是有效的，问题与QueryCache类的函数namedParameters.hashCode（）有关，它为同一个查询生成不同的HashCode！这与类有关它为同一个数组对象[01，1]生成一个不同的(新的)hachCode！此hashCode方法对于数组应该是递归的
Java中效率低下的线程

问题内容：我目前遇到一些问题，以了解为什么在某些情况下Java中的并行化似乎效率低下。在下面的代码中，我构建了4个使用ThreadPool执行的相同任务。在我的Core i5（2核，4线程）上，如果将工作程序数设置为1，则计算机需要大约5700毫秒，并使用25％的处理器。如果将工作程序数量设置为4，则可以观察到100％的CPU使用率，但是…计算时间是相同的：5700ms，而我希望它可以减少4倍
字符串连接使用效率低下

问题内容：我突然在我的java-app（使用NetBeans作为IDE）中创建记录器时，突然看到一条警告：“记录器中字符串连接使用效率不高”。我的原始代码是但是NetBeans建议将此代码转换为模板（“模板”在这里意味着什么？），并提供以下代码：这两种串联方式有什么不同，尽管我从未使用过后者。干杯。问题答案：我会忽略该警告（如果可能，请将其关闭）。串联的效率不是那么低，因为现代编译器
不可变集合天生效率低吗

不可变对象是无法更改状态的对象。它们更容易测试和调试，在并发编程中非常有用。然而，与可变集合的亲属相比，当前的不可变集合实现的性能较差。例如，将关联数组实现为不可变的红黑树时，平均有O（log（n））个Insert/Delete，而哈希表平均有O（1）个Insert/Delete。总的来说，不可变集合是否比它们的可变表亲效率低，或者有一天我们会找到同样快的不可变实现？
为什么if(variable1%variable2==0)是低效的？

这里是“高效”的代码（对不起，如果我有一点语法错误，我现在不在计算机上使用代码）这里是“低效代码” 请注意，我有一个日期变量来测量差异，当它变得足够长时，第一个用了50ms，而另一个用了12秒或类似的时间。如果您的PC比我的效率高，您可能必须增加或减少。我在网上找这个问题，但我找不到答案，也许我只是问错了。编辑：我没想到我的问题这么受欢迎，我很感激所有的答案。我确实在每一半的时间上执行了一个

\d效率低于[0-9]

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档