问题：

Ivy桥上RDRAND指令的延迟和吞吐量是多少？

太叔景同

2023-03-14

我找不到任何关于agner.orgRDRAND指令的延迟或吞吐量的信息。但是，这个处理器存在，所以信息必须在那里。

编辑：实际上，最新的优化手册中提到了此说明。记录如下：

共有3个答案

湛骏祥

2023-03-14

我使用Intel的“librdrand”包装器在一个实际的常春藤网桥i7-3770上做了一些初步的吞吐量测试，它在一个内核上每秒生成3300-3500万个32位数字。

这个来自英特尔的7000万数字大约是8核；其中一个报告只有10米左右，所以我的测试比其他测试好3倍多：-/

邓阳炎

2023-03-14

您可以在英特尔数字随机数生成器（DRNG）软件实施指南中找到一些相关信息。

逐字引用如下：

实测吞吐量：

Up to 70 million RDRAND invocations per second
500+ million bytes of random data per second
Throughput ceiling is insensitive to the number of contending parallel threads

贲文景

2023-03-14

我写了《利伯兰德》。使用RdRand指令用随机数填充缓冲区是一组非常基本的例程。

我们在IDF上展示的性能数据来自我编写的测试软件，该软件在Linux中使用pthreads生成了许多线程。每个线程使用RdRand用随机数填充内存缓冲区。该程序测量平均速度，可以在改变线程数的同时进行迭代。

由于每个核心到共享DRNG的往返通信延迟比在DRNG上生成随机数所需的时间要长，因此平均性能会随着线程的添加而明显提高，直到达到最大吞吐量。IVB上DRNG的物理最大吞吐量为800MBytes/s。一个具有8个线程的4核IVB可以管理780Mbytes/s左右的数据。线程和内核越少，所获得的数据就越少。500MB/s的数字有些保守，但当您试图诚实地宣称性能时，您必须做到这一点。

由于DRNG以固定频率（800MHz）运行，而核心频率可能会有所不同，因此每个RdRand的核心时钟周期数会有所不同，具体取决于核心频率和同时访问DRNG的其他核心的数量。IDF演示文稿中给出的曲线是预期的现实表示。总性能受核心时钟频率的影响较小，但影响不大。线程数量是主要因素。

在测量RdRand性能以实际“使用”RdRand结果时应该小心。如果你没有，即你这样做了... RdRand R6， RdRand R6，......， RdRand R6重复多次，性能会被人为地读取为高。由于数据在被覆盖之前不会使用，因此CPU管道不会等待数据从DRNG返回，然后再发出下一条指令。我们编写的测试将结果数据写入内存，这些内存将在片上缓存中，因此管道会停止等待数据。这也是为什么RdRand的超线程比其他类型的代码更有效的原因。

IDF幻灯片中给出了特定平台、时钟速度、Linux版本和GCC版本的详细信息。我记不清脑子里的数字了。有的芯片速度较慢，有的芯片速度较快。我们给的号码

这些芯片现在已经上市，因此任何精通rdtsc的人都可以进行同样的测试。

Ivy桥上RDRAND指令的延迟和吞吐量是多少？

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档