问题：

Eigen3矩阵乘法性能

党源

2023-03-14

注：我也在这里的Eigen论坛上发表了这篇文章

我想用一个3x3矩阵预乘3xN个矩阵，即，变换3D点，如p_dest=T*p_source

初始化矩阵后：

Eigen::Matrix<double, 3, Eigen::Dynamic> points = Eigen::Matrix<double, 3, Eigen::Dynamic>::Random(3, NUMCOLS);
Eigen::Matrix<double, 3, Eigen::Dynamic> dest = Eigen::Matrix<double, 3, Eigen::Dynamic>(3, NUMCOLS);
int NT = 100;

// eigen direct multiplication
for (int i = 0; i < NT; i++){
  Eigen::Matrix3d T = Eigen::Matrix3d::Random();
  dest.noalias() = T * points;
}

而且

// col multiplication
for (int i = 0; i < NT; i++){
  Eigen::Matrix3d T = Eigen::Matrix3d::Random();
  for (int c = 0; c < points.cols(); c++){
    dest.col(c) = T * points.col(c);
  }
}

进行NT重复只是为了计算平均时间

我很惊讶逐列乘法比直接乘法快4/5倍（如果我不使用.noalias()，直接乘法甚至更慢，但这没有问题，因为它是临时复制）。我尝试将NUMCOLS从0改为1000000，关系是线性的。

共有1个答案

彭存

2023-03-14

您正在对col乘法版本中的惰性（因此缺少）评估进行计时，而对直接版本中的惰性（但已评估）评估进行计时。

让我们来看一个完整的MCVE而不是代码片段。一、“你是”版本：

void ColMult(Matrix3Xd& dest, Matrix3Xd& points)
{
    Eigen::Matrix3d T = Eigen::Matrix3d::Random();
    for (int c = 0; c < points.cols(); c++){
        dest.col(c) = T * points.col(c);
    }
}

void EigenDirect(Matrix3Xd& dest, Matrix3Xd& points)
{
    Eigen::Matrix3d T = Eigen::Matrix3d::Random();
    dest.noalias() = T * points;
}

int main(int argc, char *argv[])
{
    srand(time(NULL));

    int NUMCOLS = 100000 + rand();

    Matrix3Xd points = Matrix3Xd::Random(3, NUMCOLS);
    Matrix3Xd dest   = Matrix3Xd(3, NUMCOLS);
    Matrix3Xd dest2  = Matrix3Xd(3, NUMCOLS);
    int NT = 200;
    // eigen direct multiplication
    auto beg1 = std::chrono::high_resolution_clock::now();
    for (int i = 0; i < NT; i++)
    {
        EigenDirect(dest, points);
    }
    auto end1 = std::chrono::high_resolution_clock::now();

    std::chrono::duration<double> elapsed_seconds = end1-beg1;

    // col multiplication
    auto beg2 = std::chrono::high_resolution_clock::now();
    for(int i = 0; i < NT; i++)
    {
        ColMult(dest2, points);
    }

    auto end2 = std::chrono::high_resolution_clock::now();

    std::chrono::duration<double> elapsed_seconds2 = end2-beg2;
    std::cout << "Direct time: " << elapsed_seconds.count() << "\n";
    std::cout << "Col time: " << elapsed_seconds2.count() << "\n";

    std::cout << "Eigen speedup: " << elapsed_seconds2.count() / elapsed_seconds.count() << "\n\n";
    return 0;
}

有了这段代码（和SSE打开），我得到：

Direct time: 0.449301
Col time: 0.10107
Eigen speedup: 0.224949

注意：如果我们使用输出< ，那么 dest的计算值将仅足以输出col乘法方法中的单个元素。

然后我们得到

Direct time: 0.447298
Col time: 0.681456
Eigen speedup: 1.52349

结果不出所料。请注意，Eigen direct方法花了完全相同的时间（这意味着即使没有添加ostream，也会进行计算），而col方法突然花了更长的时间。

类似资料：

NumPy矩阵乘法

主要内容：逐元素矩阵乘法,矩阵乘积运算,矩阵点积矩阵乘法是将两个矩阵作为输入值，并将 A 矩阵的行与 B 矩阵的列对应位置相乘再相加，从而生成一个新矩阵，如下图所示：注意：必须确保第一个矩阵中的行数等于第二个矩阵中的列数，否则不能进行矩阵乘法运算。图1：矩阵乘法矩阵乘法运算被称为向量化操作，向量化的主要目的是减少使用的 for 循环次数或者根本不使用。这样做的目的是为了加速程序的计算。下面介绍 NumPy 提供的三种矩阵乘法，从而进一步
多矩阵乘法

问题内容：在numpy中，我有N个3x3矩阵的数组。这将是我如何存储它们的示例（我正在提取内容）：我也有一个由3个向量组成的数组，这将是一个示例：我似乎无法弄清楚如何通过numpy将它们相乘，从而实现如下效果：与的形状（在投射到阵列）是。但是，由于速度的原因，列表实现是不可能的。我尝试了各种换位的np.dot，但最终结果没有得到正确的形状。问题答案：使用脚步： 1）保持第一根轴对
C矩阵乘法

我想使用寄存器（逐行信息）通过向量算法创建矩阵乘法。打开外循环4次我有空洞matvec_XMM（双* a，双* x，双* y，整数n，整数磅）函数的问题，它返回了不好的结果，这是算法wchich我必须使用：它是ma代码：
矩阵乘法（Matrix Multiplication）

考虑两个矩阵A和B.如果A是mxn矩阵而B是nxp矩阵，它们可以相乘以产生mxn矩阵C.只有当A中的列数n等于数量时才可以进行矩阵乘法在B.中的行n 在矩阵乘法中，第一矩阵中的行的元素与第二矩阵中的对应列相乘。在得到的矩阵C中的第（i，j）位置中的每个元素是第i行的第i行中的元素与第二矩阵的第 j列中的对应元素的乘积的总和。 MATLAB中的矩阵乘法是使用*运算符执行的。例子 (Exampl
对称块矩阵乘法

我试图乘以两个块对称矩阵（矩阵大小矩阵大小）。我想执行块矩阵乘法（将一个矩阵分成多个块大小矩阵，并将相应的块相乘）。我已经写了一些代码，但想改进它，并存储主对角线以上的块，但我没有任何想法。如果可能的话，你们能帮忙吗？
为什么Strassen矩阵乘法比标准矩阵乘法慢得多？

C++:15秒（源） Python:6分13秒（来源） C++:45分钟（源）蟒蛇：10小时后被杀死（来源）为什么Strassen矩阵乘法比标准矩阵乘法慢得多？ null null null

Eigen3矩阵乘法性能

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档