当前位置: 首页 > 知识库问答 >
问题:

使用Haswell体系结构的并行程序设计[封闭]

韩祯
2023-03-14

我想学习使用英特尔的Haswell CPU微架构的并行编程。关于在ASM/C/C++/(任何其他langs)中使用SIMD:SSE4.2,AVX2?。你能推荐书籍,教程,网络资源,课程吗?

共有1个答案

仉臻
2023-03-14
for(int i=0; i<n; i++) {
    sum += x(i)*y(i);
}
for(int i=0; i<n; i+=2) {
    sum1 += x(i)*y(i);
    sum2 += x(i+1)*y(i+1);
}
sum = sum1 + sum2;

在IGP上进行计算(使用Iris Pro)。

所有Haswell消费者处理器(Haswell-E尚未推出)都有一个IGP。IGP使用了至少30%到50%以上的硅。这至少足够多2个x86内核了。对于大多数程序员来说,这是浪费了计算潜力。编程IGP的唯一方法是使用OpenCL。Intel没有用于Linux的OpenCL Iris Pro驱动程序,所以你只能使用Windows(我不确定苹果的实现有多好)。不使用OpenCL编程Intel IGP(例如Iris Pro 5200)硬件。

与英伟达和AMD相比,Iris Pro的一个优势是双浮点只有Iris Pro单浮点速度的四分之一(然而fp64只在直接计算中启用,而不是与OpenCL)。NVIDIA和AMD(最近)削弱了双浮点太多,这使得GPGPU双浮点计算在他们的消费卡上不是很有效。

 类似资料:
  • 具有以下商业案例: 电子邮件促销活动表示,第一个点击链接的1_000_000用户将获得奖金。用户在访问网页时会立即看到奖金或“对不起”消息。 问题:如何设计此解决方案? 选项1:独石。原子整数。CAS问题可以在这里发生吗?或者1_000_000不是在这种情况下引起问题的金额吗?能做到这一点的数字是多少

  • 3.5 结构化程序设计 早期的计算机运算速度慢、存储空间小,主要应用于科学计算。因此那时的程序在结构 方面很简单,程序员主要追求的是精细的编程技巧,以期在有限的存储空间内尽快地计算出 结果。例如,在用汇编语言编程序时,如果要计算某个数 A 乘以 2,聪明的程序员不会用乘 法指令来做这件事,而是会采用左移指令:将 A 的二进制表示左移 1 位(右边补 0)①。这是 因为执行一条乘法指令所需的时间通常

  • Ceph 独一无二地用统一的系统提供了对象、块、和文件存储功能,它可靠性高、管理简便、并且是自由软件。 Ceph 的强大足以改变贵公司的 IT 基础架构、和管理海量数据的能力。Ceph 可提供极大的伸缩性——供成千用户访问 PB 乃至 EB 级的数据。 Ceph 节点以普通硬件和智能守护进程作为支撑点, Ceph 存储集群组织起了大量节点,它们之间靠相互通讯来复制数据、并动态地重分布数据。 Cep

  • 这是一个有点开放性的问题,但是,制作一个好的可扩展电子应用程序的好方法是什么?VSCode、Atom和许多其他软件都支持扩展,但它们的代码库太大,我无法理解到底发生了什么。我对Jupyterlab感到非常惊讶,据他们说,它包含一个小小的核心,而其他一切都只是它上面的扩展。所以我想知道如何构建这些应用程序。 我的具体问题是: 是否有创建可扩展架构的最佳实践 电子部分是如何“识别”延伸的?怎么装的?什

  • 问题内容: 设想 我正在建立一个包含一系列不同表的数据库。这些由COMMENTS表,BLOGS表和ARTICLES表组成。我希望能够向每个表中添加新项目,并使用0到5个标签对其进行标记,以帮助用户更轻松地搜索相关的特定信息。 有关建筑的初步想法 我最初的想法是拥有一个集中的TAGS表。该表将使用TagID字段和TagName字段列出所有可用标签。由于每个项目可以有很多标签,并且每个标签可以有很多项

  • 冯·诺依曼体系结构 计算机处理的数据和指令一律用二进制数表示 顺序执行程序 计算机运行过程中,把要执行的程序和处理的数据首先存入主存储器(内存),计算机执行程序时,将自动地并按顺序从主存储器中取出指令一条一条地执行,这一概念称作顺序执行程序。 计算机硬件由运算器、控制器、存储器、输入设备和输出设备五大部分组成。 数据的机内表示 二进制表示 机器数 由于计算机中符号和数字一样,都必须用二进制数串来表