当前位置: 首页 > 面试题库 >

为什么numba比numpy快?

游高杰
2023-03-14
问题内容

我不知道为什么numba在这里击败numpy(超过3倍)。我在这里进行基准测试时是否犯了一些根本性的错误?对于numpy来说似乎是完美的情况,不是吗?请注意,作为检查,我还运行了一个结合了numba和numpy的变体(未显示),正如预期的那样,它与不带numba的numpy运行相同。

(顺便说一下,这是一个后续问题:数字处理二维数组的最快方法:dataframe vs series vs array vs
numba

import numpy as np
from numba import jit
nobs = 10000

def proc_numpy(x,y,z):

   x = x*2 - ( y * 55 )      # these 4 lines represent use cases
   y = x + y*2               # where the processing time is mostly
   z = x + y + 99            # a function of, say, 50 to 200 lines
   z = z * ( z - .88 )       # of fairly simple numerical operations

   return z

@jit
def proc_numba(xx,yy,zz):
   for j in range(nobs):     # as pointed out by Llopis, this for loop 
      x, y = xx[j], yy[j]    # is not needed here.  it is here by 
                             # accident because in the original benchmarks 
      x = x*2 - ( y * 55 )   # I was doing data creation inside the function 
      y = x + y*2            # instead of passing it in as an array
      z = x + y + 99         # in any case, this redundant code seems to 
      z = z * ( z - .88 )    # have something to do with the code running
                             # faster.  without the redundant code, the 
      zz[j] = z              # numba and numpy functions are exactly the same.
   return zz

x = np.random.randn(nobs)
y = np.random.randn(nobs)
z = np.zeros(nobs)
res_numpy = proc_numpy(x,y,z)

z = np.zeros(nobs)
res_numba = proc_numba(x,y,z)

结果:

In [356]: np.all( res_numpy == res_numba )
Out[356]: True

In [357]: %timeit proc_numpy(x,y,z)
10000 loops, best of 3: 105 µs per loop

In [358]: %timeit proc_numba(x,y,z)
10000 loops, best of 3: 28.6 µs per loop

我在2012年的macbook air(13.3)(标准anaconda发行版)上运行了该软件。如果相关,我可以提供有关我的设置的更多详细信息。


问题答案:

我认为这个问题突出了(某种程度上)从高级语言调用预编译函数的局限性。假设在C ++中,您编写如下内容:

for (int i = 0; i != N; ++i) a[i] = b[i] + c[i] + 2 * d[i];

编译器会在编译时看到整个表达式。它可以在这里做很多非常聪明的事情,包括优化临时文件(以及循环展开)。

但是在python中,请考虑发生了什么:当您使用numpy时,每个``+”都会在np数组类型上使用运算符重载(它们只是连续内存块的薄包装,即低级数组),并调出到一个fortran(或C
++)函数,该函数可以非常快速地执行添加操作。但是它只是做一个加法,并吐出一个临时值。

我们可以看到,虽然numpy很棒,方便且相当快,但它却使速度变慢,因为虽然看起来它正在调用一种快速的编译语言来进行艰苦的工作,但编译器却看不到整个程序,只喂一些孤立的小片段。这对编译器非常不利,特别是现代的编译器,它们非常聪明,当编写良好的代码时,每个周期可以退出多个指令。

另一方面,Numba使用了jit。因此,在运行时,它可以确定不需要临时工,并对其进行优化。基本上,Numba可以将程序作为一个整体进行编译,numpy只能调用本身已预先编译的小原子块。



 类似资料:
  • 问题内容: 通常,我从numpy的einsum函数获得了良好的性能(我喜欢它的语法)。@Ophion对这个问题的回答表明-在测试的情况下- einsum始终优于“内置”功能(有时会稍微好一些,有时会很多)。但是我刚遇到einsum慢得多的情况。考虑以下等效功能: 我期望跑得最快,但这不是我遇到的。在具有超线程,numpy版本1.9.0.dev-7ae0206和带有OpenBLAS的多线程的四核CP

  • 问题内容: 当我遇到性能问题时,我只是更改了一个正在编写的程序,以将数据存储为numpy数组,而两者之间的区别令人难以置信。最初耗时30分钟,而现在耗时2.5秒! 我想知道它是如何做到的。我认为这是因为它消除了对循环的需要,但除此之外,我感到很困惑。 问题答案: 块状阵列是均质类型的密集堆积阵列。相比之下,Python列表是指向对象的指针数组,即使它们都属于同一类型。因此,您可以获得引用局部性的好

  • 问题内容: 示例代码在这里 问题答案: 我认为速度更快,因为使用矢量化方式和熊猫构建在此数组上。 慢,因为它使用。 操作是最快的,然后是。 请参阅此答案,并更好地解释pandas开发人员。

  • 问题内容: 一些用户建议使用numpy的以下方法,以及我认为是正确的方法: 我也发现具有相同的性能。无论如何,另一个答案建议使用列表理解的解决方案: 但是在基准测试之后,我发现列表理解比numpy快得多: 结果: 如您所见,numpy大约快5倍。但最令人惊讶的是,它无需使用转置就可以更快地运行,并且适用于以下代码: 列表理解仍然快了5倍。因此,除了这一点之外,这里的列表理解是在C语言中执行的,我们

  • 主要内容:NumPy使用需求,NumPy应用场景NumPy 的全称是“ Numeric Python”,它是 Python 的第三方扩展包,主要用来计算、处理一维或多维数组。 在数组算术计算方面, NumPy 提供了大量的数学函数。NumPy 的底层主要用 C语言编写,因此它能够高速地执行数值计算。NumPy 还提供了多种数据结构,这些数据结构能够非常契合的应用在数组和矩阵的运算上。 NumPy 的前身是 Numeric 程序包,该包由 Jim

  • 原文:What is NumPy? NumPy是Python中用于科学计算的基础包。它是一个Python库,提供多维数组对象,各种派生的对象(如掩码数组和矩阵),以及数组快速操作的各种各样的例程,包括数学、逻辑、图形操作,排序、选择、I/O、离散傅里叶变换、基本线性代数、基本统计操作,随机模拟以及其他。 NumPy包的核心是ndarray对象。它封装了均匀数据类型的n维数组,带有一些在编译过的代码