问题：

VS:_BitScanReverse64内部的意外优化行为

鲁成天

2023-03-14

以下代码在调试模式下工作良好，因为_BitScanReverse64被定义为如果未设置位则返回0。引用MSDN：（返回值为）“如果已设置索引，则为非零；如果未找到设置位，则为0。”

如果在发布模式下编译此代码，它仍然可以工作，但是如果启用编译器优化，例如\o1或\o2，则索引不为零，assert()将失败。

#include <iostream>
#include <cassert>

using namespace std;

int main()
{
  unsigned long index = 0;
  _BitScanReverse64(&index, 0x0ull);

  cout << index << endl;

  assert(index == 0);

  return 0;
}

这是故意的行为吗？我正在使用Visual Studio Community 2015，版本14.0.25431.01更新3。（我把cout留在了，这样在优化过程中就不会删除变量index）。另外，是否有一个有效的解决办法，或者我应该不直接使用这个编译器？

禹昆

2023-03-14

另外，当输入为零时，本征将垃圾留在index中，比asm指令的行为弱。这就是它有一个单独的布尔返回值和整数输出操作数的原因。

尽管index参数是通过引用获得的，但编译器将其视为仅输出。

unsigned char_bitscanreverse64(unsigned__int32*索引，unsigned__int64掩码）
Intel针对同一内部文件的内部文件指南文档似乎比您链接的Microsoft文档更清晰，并对MS文档试图表达的内容提供了一些信息。但仔细阅读，它们似乎都在说同样的话，并且描述了bsr指令的一个薄包装。

Intel将bsr指令记录为在输入为0时生成“未定义值”，但在这种情况下设置ZF。但AMD将其记录为保持目标不变：

AMD在AMD64架构程序员手册第3卷：通用和系统说明中的BSF条目

...如果第二个操作数包含0，则指令集将ZF设置为1，并且不改变目标寄存器的内容。...

在Intel（但可能不是AMD）上，这甚至没有将64位寄存器截短为32位。例如mov rax，-1；BSF eax,ECX（带有零ECX）保留RAX=-1(64位），而不是从异或eax,0得到的0x00000000FFFFFFFFF。但对于非零ECX，bsf eax，ECX具有通常的效应，即将零扩展为RAX，例如，留下RAX=3。

为什么英特尔还没有记录下来。可能是一个真正老旧的x86 CPU（像原来的386？）以不同的方式实现？Intel和AMD经常超越x86手册中的规定，以避免破坏现有的广泛使用的代码（例如Windows），这可能是开始的原因。

在这一点上，Intel似乎不太可能放弃输出依赖关系，并为Input=0保留实际的垃圾或-1或32，但由于缺乏文档，这一选项仍然是开放的。

Skylake删除了lzcnt和tzcnt的false依赖项（后来的一个uarch删除了popcnt的false dep)，同时仍然保留了bsr/bsf的依赖项。（为什么打破LZCNT的“输出依赖”很重要？）

当然，由于MSVC优化了index=0初始化，所以它可能只是使用它想要的任何目标寄存器，而不一定是保存C变量前一个值的寄存器。所以即使你想，我不认为你可以利用DST未修改的行为，即使它是在AMD上保证。

所以用C++的术语来说，intrinsic不依赖于index。但在asm中，指令对dst寄存器有输入依赖关系，如add dst,src指令。如果编译器不小心，这可能会导致意外的性能问题。

不幸的是，在Intel硬件上，popcnt/lzcnt/tzcntasm指令对它们的目的地也有错误的依赖关系，尽管结果从不依赖于它。编译器可以解决这一问题，因为现在已经知道了，所以在使用本机时不必担心这一点（除非您有一个超过几年的编译器，因为它是最近才发现的）。

您需要检查它以确保index是有效的，除非您知道输入是非零的。例如。

if(_BitScanReverse64(&idx, input)) {
    // idx is valid.
    // (MS docs say "Index was set")
} else {
    // input was zero, idx holds garbage.
    // (MS docs don't say Index was even set)
    idx = -1;     // might make sense, one lower than the result for bsr(1)
}

如果您想避免这个额外的检查分支，那么如果您针对的是足够新的硬件（例如Intel Haswell或AMD推土机IIRC)，您可以通过不同的内部控制使用lzcnt指令。它“工作”甚至当输入是全零，实际上计数前导零，而不是返回最高设置位的索引。

VS:_BitScanReverse64内部的意外优化行为

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档