当前位置: 首页 > 面试题库 >

计算两个多维数组之间的相关系数

辛意智
2023-03-14
问题内容

我有两个数组,它们的形状为N X TM X T。我想计算T每对可能的行之间nm(分别来自NM)之间的相关系数。

什么是最快,最Python化的方法?(遍历NM对我来说似乎既不快速也不是pythonic。)我期望答案涉及numpyand / or
scipy。现在,我的数组是numpy arrays,但是我愿意将它们转换为其他类型。

我期望我的输出是一个带有shape的数组N X M

注意:当我说“相关系数”时,我指的是皮尔逊积矩相关系数。

以下是一些注意事项:

  • numpy函数correlate要求输入数组为一维。
  • numpy函数corrcoef接受二维数组,但它们必须具有相同的形状。
  • scipy.stats函数pearsonr要求输入数组为一维。

问题答案:

两个2D数组之间的相关性(默认为“有效”大小写):

您可以np.dot像这样简单地使用矩阵乘法-

out = np.dot(arr_one,arr_two.T)

"valid"两个输入数组的每个成对行组合(row1,row2)之间的默认情况的关联将对应于每个(row1,row2)位置处的乘法结果。

两个2D数组的行相关系数的计算:

def corr2_coeff(A, B):
    # Rowwise mean of input arrays & subtract from input arrays themeselves
    A_mA = A - A.mean(1)[:, None]
    B_mB = B - B.mean(1)[:, None]

    # Sum of squares across rows
    ssA = (A_mA**2).sum(1)
    ssB = (B_mB**2).sum(1)

    # Finally get corr coeff
    return np.dot(A_mA, B_mB.T) / np.sqrt(np.dot(ssA[:, None],ssB[None]))

这是基于此解决方案 How to apply corr2 functions in Multidimentional arrays in MATLAB

标杆管理

本部分将运行时性能与针对其他答案中列出的基于generate_correlation_map&循环pearsonr的方法的建议方法进行比较。(取自该函数test_generate_correlation_map()末尾没有值正确性验证代码的函数)。请注意,建议的方法的时间安排还包括在开始时进行检查,以检查两个输入数组中的列数是否相等,就像在其他答案中所做的那样。接下来列出运行时。

情况1:

In [106]: A = np.random.rand(1000, 100)

In [107]: B = np.random.rand(1000, 100)

In [108]: %timeit corr2_coeff(A, B)
100 loops, best of 3: 15 ms per loop

In [109]: %timeit generate_correlation_map(A, B)
100 loops, best of 3: 19.6 ms per loop

情况2:

In [110]: A = np.random.rand(5000, 100)

In [111]: B = np.random.rand(5000, 100)

In [112]: %timeit corr2_coeff(A, B)
1 loops, best of 3: 368 ms per loop

In [113]: %timeit generate_correlation_map(A, B)
1 loops, best of 3: 493 ms per loop

情况3:

In [114]: A = np.random.rand(10000, 10)

In [115]: B = np.random.rand(10000, 10)

In [116]: %timeit corr2_coeff(A, B)
1 loops, best of 3: 1.29 s per loop

In [117]: %timeit generate_correlation_map(A, B)
1 loops, best of 3: 1.83 s per loop

另一种循环pearsonr based方法似乎太慢,但是这里是一个小数据大小的运行时-

In [118]: A = np.random.rand(1000, 100)

In [119]: B = np.random.rand(1000, 100)

In [120]: %timeit corr2_coeff(A, B)
100 loops, best of 3: 15.3 ms per loop

In [121]: %timeit generate_correlation_map(A, B)
100 loops, best of 3: 19.7 ms per loop

In [122]: %timeit pearsonr_based(A, B)
1 loops, best of 3: 33 s per loop


 类似资料:
  • 问题内容: 我对计算两个numpy数组(x和y)之间的各种空间距离感兴趣。 http://docs.scipy.org/doc/scipy-0.14.0/reference/generation/scipy.spatial.distance.cdist.html 但是,以上结果会产生太多不必要的结果。我如何仅将其限制为所需的结果。 我想计算[1,11]和[31,41]之间的距离;[2,22]和[3

  • 我想写一个函数来计算中的坐标与中的每个坐标之间的欧氏距离,并通过列生成维度行的距离数组(其中是中的坐标数,是中的坐标数)。 NB:为了简单起见,我不想使用任何其他库。 运行该函数将生成: 我一直在试着运行下面的程序 但我得到以下错误: 非常感谢。

  • 假设我有这两个数组: 如何从ARR2获取arr1中的出现次数。两个数组中的所有字符串都是唯一的,不会有重复的。显然,在这个具体案例中的结果是2。 我试过的: 问题是我必须在很少的情况下使用它,并且变量总是在变化,这取决于您单击的内容,而您不能依赖它的值。 提前谢谢!

  • 我正在寻找一种方法来声明“2个依赖项之间的依赖项”。 例如,在我的模块中,我ivy.xml以下行: 我的问题是,日志经典 1.0.13 依赖于 slf4j-api 1.7.5,而我的模块依赖于 1.6.6(slf4japiversion 的值)。 我无法更改 slf4japiversion,但将来它可以由其他人升级。 有没有办法声明对logback的依赖关系,以检索与我的slf4j api版本兼容

  • 问题内容: 我有以下代码。它在Python中永远存在。必须有一种方法可以将此计算结果转换为广播… 问题答案: 您可以在计算出的差异后使用,如下所示: 或使用其可选的metric参数集,以根据问题的需要给我们平方的欧几里得距离,如下所示-

  • 问题内容: 我编写了以下代码来查找两个日期之间的日期 当开始日期和结束日期分别是2/3/2017和3/3/2017时,显示的天数是29.尽管它们是同一天,但显示的是1.(请假的天数。如果请假一天,他必须选择相同的开始日期和结束日期。因此,在这种情况下,他请了两天假。 我究竟做错了什么?感谢您的时间。 注意:请不要使用日期构造函数。检查下面接受的答案。使用simpledateformat或Joda时