问题：

为什么memcmp比for循环检查快得多？

房项禹

2023-03-14

为什么memcmp（a，b，size）比：

for(i = 0; i < nelements; i++) {
    if a[i] != b[i] return 0;
}
return 1;

memcmp是CPU指令还是什么？它一定很深，因为我在循环中使用memcmp获得了巨大的加速。

共有3个答案

岳杜吟

2023-03-14

memcmp是CPU指令还是什么？

它至少是一个高度优化的编译器提供的内在函数。可能是一条或两条机器指令，具体取决于您尚未指定的平台。

程和煦

2023-03-14

它通常是一个编译器的固有特性，被翻译成快速汇编，带有专门的指令，用于比较内存块。

内在memcmp

颛孙正谊

2023-03-14

memcmp通常在汇编中实现，以利用许多特定于体系结构的特性，这可以使其比C中的简单循环快得多。

GCC支持内置的memcmp（以及大量其他功能）。在GCC的某些版本/配置中，对memcmp的调用将被识别为\uuuu builtin\umemcmp。GCC不会向memcmp库函数发出调用，而是发出一些指令，作为函数的优化内联版本。

在x86上，这利用了cmpsb指令的使用，该指令将一个内存位置的字节串与另一个进行比较。这与repe前缀相结合，因此字符串将被比较，直到它们不再相等，或者计数用尽。（正是memcmp所做的）。

鉴于以下代码：

int test(const void* s1, const void* s2, int count)
{
    return memcmp(s1, s2, count) == 0;
}

Cygwin上的gcc 3.4.4版生成以下程序集：

; (prologue)
mov     esi, [ebp+arg_0]    ; Move first pointer to esi
mov     edi, [ebp+arg_4]    ; Move second pointer to edi
mov     ecx, [ebp+arg_8]    ; Move length to ecx

cld                         ; Clear DF, the direction flag, so comparisons happen
                            ; at increasing addresses
cmp     ecx, ecx            ; Special case: If length parameter to memcmp is
                            ; zero, don't compare any bytes.
repe cmpsb                  ; Compare bytes at DS:ESI and ES:EDI, setting flags
                            ; Repeat this while equal ZF is set
setz    al                  ; Set al (return value) to 1 if ZF is still set
                            ; (all bytes were equal).
; (epilogue)

参考：

cmpsb指令

许多C标准库中都有高度优化的memcmp版本。它们通常会利用特定于体系结构的指令来并行处理大量数据。

在Glibc中，有针对x86_64的memcmp版本可以利用以下指令集扩展：

SSE2-sysdeps/x86_64/memcmp. s
SSE4-sysdeps/x86_64/Multiarch/Memcmp-sse4. s
SSSE3-sysdeps/x86_64/Multiarch/memcmp-ssse3. s

最酷的部分是glibc将检测（在运行时）您的CPU拥有的最新指令集，并执行为其优化的版本。请参见sysdeps/x86_64/multiarch/memcmp中的这段代码。S：

ENTRY(memcmp)
    .type   memcmp, @gnu_indirect_function
    LOAD_RTLD_GLOBAL_RO_RDX
    HAS_CPU_FEATURE (SSSE3)
    jnz 2f
    leaq    __memcmp_sse2(%rip), %rax
    ret 

2:  HAS_CPU_FEATURE (SSE4_1)
    jz  3f  
    leaq    __memcmp_sse4_1(%rip), %rax
    ret 

3:  leaq    __memcmp_ssse3(%rip), %rax
    ret 

END(memcmp)

Linux似乎没有针对x86_64的memcmp优化版本，但它在arch/x86/lib/memcpy_64中针对memcpy。S。请注意，is使用alternatives基础设施（arch/x86/kernel/alternative.c）不仅可以在运行时决定使用哪个版本，还可以在启动时对自身进行修补，只做一次决定。

为什么memcmp比for循环检查快得多？

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档