问题：

带SSE的并行前缀（累计）和

吴伟志

2023-03-14

我正在寻找一些关于如何使用SSE进行并行前缀和的建议。我对在int、float或double数组上执行此操作感兴趣。

我想出了两个解决方案。特殊情况和一般情况。在这两种情况下，解决方案都与OpenMP并行在阵列上运行两次。对于特殊情况，我在两个过程中都使用SSE。对于一般情况，我只在第二遍使用它。

我的主要问题是，在一般情况下，如何在第一次通过时使用SSE？英特尔cpu上的以下链接simd前缀和显示了字节数的改进，但不适用于32位数据类型。

特殊情况称为特殊的原因是它要求数组采用特殊格式。例如，让我们假设数组a浮点数只有16个元素。然后如果数组像这样重新排列（结构数组到数组结构）：

a[0] a[1] ...a[15] -> a[0] a[4] a[8] a[12] a[1] a[5] a[9] a[13]...a[3] a[7] a[11] a[15]

SSE垂直总和可用于两个过程。然而，只有当数组已经是特殊格式并且输出可以使用特殊格式时，这才是有效的。否则，必须对输入和输出进行代价高昂的重新排列，这将使其比一般情况慢得多。

也许我应该考虑前缀和的不同算法（例如二叉树）？

一般情况下的代码：

void prefix_sum_omp_sse(double a[], double s[], int n) {
    double *suma;
    #pragma omp parallel
    {
        const int ithread = omp_get_thread_num();
        const int nthreads = omp_get_num_threads();
        #pragma omp single
        {
            suma = new double[nthreads + 1];
            suma[0] = 0;
        }
        double sum = 0;
        #pragma omp for schedule(static) nowait //first parallel pass
        for (int i = 0; i<n; i++) {
            sum += a[i];
            s[i] = sum;
        }
        suma[ithread + 1] = sum;
        #pragma omp barrier
        #pragma omp single
        {
            double tmp = 0;
            for (int i = 0; i<(nthreads + 1); i++) {
                tmp += suma[i];
                suma[i] = tmp;
            }
        }
        __m128d offset = _mm_set1_pd(suma[ithread]);
        #pragma omp for schedule(static) //second parallel pass with SSE as well
        for (int i = 0; i<n/4; i++) {       
            __m128d tmp1 = _mm_load_pd(&s[4*i]);
            tmp1 = _mm_add_pd(tmp1, offset);    
            __m128d tmp2 = _mm_load_pd(&s[4*i+2]);
            tmp2 = _mm_add_pd(tmp2, offset);
            _mm_store_pd(&s[4*i], tmp1);
            _mm_store_pd(&s[4*i+2], tmp2);
        }
    }
    delete[] suma;
}

公西永嘉

2023-03-14

这是我第一次回答自己的问题，但这似乎很合适。基于hirschhornsalz对intel cpu上16字节simd前缀和的前缀和的回答，我提出了一种在4、8和16个32位字的第一遍使用simd的解决方案。

一般理论如下。对于n个单词的顺序扫描，需要添加（n-1扫描n个单词，从之前扫描的一组单词中再添加一个）。但是，使用SIMD时，n个字可以在对数加法和相等数量的移位加上一次加法中进行扫描，并从上一次SIMD扫描中进行广播。因此，对于某些值n，SIMD方法将获胜。

让我们看看使用SSE、AVX和AVX-512的32位单词：

4 32-bit words (SSE):      2 shifts, 3 adds, 1 broadcast       sequential: 4 adds
8 32-bit words (AVX):      3 shifts, 4 adds, 1 broadcast       sequential: 8 adds
16 32 bit-words (AVX-512): 4 shifts, 5 adds, 1 broadcast       sequential: 16 adds

基于此，在AVX-512之前，SIMD似乎对32位字的扫描没有用处。这还假设移位和广播只能在一条指令中完成。这对SSE来说是正确的，但对AVX来说不是这样，甚至可能对AVX2来说也不是这样。

无论如何，我将一些工作和测试的代码放在一起，这些代码使用SSE进行前缀和。

inline __m128 scan_SSE(__m128 x) {
    x = _mm_add_ps(x, _mm_castsi128_ps(_mm_slli_si128(_mm_castps_si128(x), 4))); 
    x = _mm_add_ps(x, _mm_castsi128_ps(_mm_slli_si128(_mm_castps_si128(x), 8)));
    return x;
}

void prefix_sum_SSE(float *a, float *s, const int n) {
__m128 offset = _mm_setzero_ps();
for (int i = 0; i < n; i+=4) {
    __m128 x = _mm_load_ps(&a[i]);
    __m128 out = scan_SSE(x);
    out = _mm_add_ps(out, offset);
    _mm_store_ps(&s[i], out);
    offset = _mm_shuffle_ps(out, out, _MM_SHUFFLE(3, 3, 3, 3)); 
}

请注意，scan\u SSE功能有两个加法（\u mm\u add\u ps）和两个移位（\u mm\u slli\u si128）。强制转换只用于使编译器满意，而不会转换为指令。然后在prefix\u sum\u SSE中的数组主循环中，使用另一个加法和一个随机数。这总共是6次运算，而顺序和只有4次加法。

以下是AVX的工作解决方案：

inline __m256 scan_AVX(__m256 x) {
    __m256 t0, t1;
    //shift1_AVX + add
    t0 = _mm256_permute_ps(x, _MM_SHUFFLE(2, 1, 0, 3));
    t1 = _mm256_permute2f128_ps(t0, t0, 41);
    x = _mm256_add_ps(x, _mm256_blend_ps(t0, t1, 0x11));
    //shift2_AVX + add
    t0 = _mm256_permute_ps(x, _MM_SHUFFLE(1, 0, 3, 2));
    t1 = _mm256_permute2f128_ps(t0, t0, 41);
    x = _mm256_add_ps(x, _mm256_blend_ps(t0, t1, 0x33));
    //shift3_AVX + add
    x = _mm256_add_ps(x,_mm256_permute2f128_ps(x, x, 41));
    return x;
}

void prefix_sum_AVX(float *a, float *s, const int n) {
    __m256 offset = _mm256_setzero_ps();
    for (int i = 0; i < n; i += 8) {
        __m256 x = _mm256_loadu_ps(&a[i]);
        __m256 out = scan_AVX(x);
        out = _mm256_add_ps(out, offset);
        _mm256_storeu_ps(&s[i], out);
        //broadcast last element
        __m256 t0 = _mm256_permute2f128_ps(out, out, 0x11);
        offset = _mm256_permute_ps(t0, 0xff);
    }   
}

三班制需要7个内在要素。广播需要两个内在因素。所以加上4个附加项，这就是13个内部变量。对于AVX2，移位只需要5个内部变量，因此总共需要11个内部变量。顺序和只需要8个加法。因此，AVX和AVX2可能都不适用于第一次通过。

编辑：

因此，我最终对此进行了基准测试，结果出乎意料。SSE和AVX代码的速度都是以下顺序代码的两倍：

void scan(float a[], float s[], int n) {
    float sum = 0;
    for (int i = 0; i<n; i++) {
        sum += a[i];
        s[i] = sum;
    }
}

我想这是由于教学水平的平行性。

所以这回答了我自己的问题。在一般情况下，我成功地将SIMD用于pass1。当我在我的4核常春藤桥系统上将其与OpenMP结合时，512k浮动的总速度约为7。

带SSE的并行前缀（累计）和

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档