当前位置: 首页 > 知识库问答 >
问题:

Intel Xeon Phi上每个时钟周期的乘法次数

牟黎昕
2023-03-14

在Intel Xeon Phi中,每个内核有32个512位宽的向量寄存器。每个向量寄存器每个周期可以执行16个单精度浮点运算。并且在1个周期内可以完成2个操作(1个在v管中,1个在u管中)。

我想知道除了向量寄存器中的向量乘法之外,在一个时钟周期内可以完成多少标量乘法。

共有1个答案

翟柏
2023-03-14

有一些误解。每个核心有1个向量单位。寄存器存储值,但不计算。因此,您可以在每个核心的每个周期发出1个512字节宽的向量操作。您也可以在1个周期内执行标量乘法。不能同时发布这两个版本。使用u

 类似资料:
  • 有两种执行指令的机制。 单时钟周期实现 管道 在MIPS体系结构(摘自《计算机组织与设计》一书)中,教学分为5个阶段。 因此,在单时钟周期实现中,这意味着在一个时钟周期内,一条指令执行5个阶段。 例如,加载指令(有5个阶段)在一个时钟周期内执行。因此,在这一个时钟周期之后可以执行其他指令。让我们假设一个时钟周期是10秒。 现在,在流水线中,多条指令可以重叠。与上面示例中的一个时钟周期的时间相比,我

  • 我需要以下场景: 在一个周期内运行所有,并在所有任务完成执行后每次调用方法时调用。在实际调度周期之后调用时,下一个调度周期不得等待。 简而言之:在实际调度周期完成后调用方法,并且不停止下一个调度周期 下面的代码创建任务和调度工作。但是,当一个周期内的所有任务都完成时,我无法调用tasksCompleted()。

  • 我已经反汇编了一个用MSVC v140编译的小型C程序,并试图估计每条指令的周期,以便更好地理解代码设计如何影响性能。我一直在关注迈克·阿克顿(MikeActon)关于“面向数据的设计和C”的CppCon 2014演讲,特别是我链接到的部分。 他在信中指出了以下几行: 然后他声称,这些2 x 32位读取可能位于同一缓存线上,因此大约需要200个周期。 《英特尔64和IA-32体系结构优化参考手册》

  • 我正在实现正弦波在秒内从逐渐变化到: 此波形是在酷编辑中产生的。开始频率,结束频率,持续时间秒。正弦波在给定的时间内逐渐从一个频率变化到另一个频率。 我的问题是,如何使用FOR循环准确地找到每个循环的开始时间(用红点突出显示)?

  • 问题内容: 我每周有一些设备的日志数据。对于某些设备,它从星期一开始,对于某些设备,它在星期三开始,等等。有时此数据中有〜月的间隔,但是我希望DataFrame索引仍然包含每周具有NaN值的行。 我正在尝试在Python中使用,但是我无法获得期望的结果。 例: 是)我有的: 我期望/想要的(请注意带有NaN的2个新行): 我得到的是: 因此,我获得了每个星期日的所有值和日期。但是我不需要每个星期天

  • 我想在我的应用程序中显示三个月,但我不知道如何显示,请帮助我如何做,这是我的代码为星期显示。谢谢你 @override protected void onCreate(Bundle savedInstanceState){super.onCreate(savedInstanceState);setContentView(r.layout.main_display);