def main():
i = 2
sum = 1
while i < 100000:
j = 2
while j < i:
if i%j == 0:
sum += 1
break
j += 1
i += 1
print(sum)
if __name__ == "__main__":
main()
#include<iostream>
using namespace std;
int main() {
int sum = 1;
for (int i=2; i<100000; i++) {
for (int j=2; j<i; j++) {
if (i%j == 0) {
sum++;
break;
}
}
}
cout << sum << endl;
return 0;
}
运行: g++ -std=c++11 x.cpp -o x && time ./x
时间: ./x 1.36s user 0.00s system 99% cpu 1.376 total
运行: python x.py
时间: python x.py 32.10s user 0.21s system 98% cpu 32.854 total
谁能解释两个程序所花费的时间之间的巨大差异?怎样才能加快python的速度呢?
这是区别的一个简单示例:
i++
在C
中,C
可以编译成简单的inc REGISTER
指令(在x86-64机器上)。只需执行一小部分周期即可执行。
i += 1
可以使用dis
模块中的Python进行反汇编,通过dis.dis('i += 1')
该模块可以通知我们所涉及的字节码为:
1 0 LOAD_NAME 0 (i)
2 LOAD_CONST 0 (1)
4 INPLACE_ADD
6 STORE_NAME 0 (i)
8 LOAD_CONST 1 (None)
10 RETURN_VALUE
在线尝试!
从技术上讲,所有的指令,在最终_NAME
成为_FAST
一个功能(我们拆开一个孤立的语句,所以它的表现略有不同),和LOAD_CONST (None)
/RETURN_VALUE
对将不是在一个真正的函数表达式存在(该功能必须这样做,但并非针对每个表达式),但足够接近。实际上,函数中的实际字节码将更像是:
1 0 LOAD_FAST 0 (i)
2 LOAD_CONST 0 (1)
4 INPLACE_ADD
6 STORE_FAST 0 (i)
这些指令中的每条指令都需要遍历一条switch
语句或经过计算goto
(取决于CPython的编译方式),加载下一条指令并更新代码位置信息(它还涉及反复检查以确保没有其他线程在请求GIL)。LOAD_FAST
并且LOAD_CONST
指令涉及到C数组查找和参考计数调整(单个参考计数调整仅i++
与以前相同,不同之处在于它必须更改内存而不是寄存器,因此速度较慢)。STORE_FAST
类似地,还涉及C数组查找,引用计数调整(以减小现有值),并经常释放内存(如果decref删除了对该值的最后一个引用)。
INPLACE_ADD
必须动态查找并调用函数指针来执行加法(首先是通过几层函数间接实现),该过程本身必须提取每个Python的基础C值int
才能完成工作(如果数字足够大,这涉及到基于数组的数学运算,这很丑陋),(通常)创建一个全新的Pythonint
对象,并且还要进行更多的引用计数调整。
基本上,为了获得与C / C
在针对寄存器的单个廉价汇编指令中所做的等效操作,Python必须执行(估计)六个函数调用(包括一个通过函数指针的调用),数十个内存查找,一个一打左右的引用计数调整等。坦率地说,最令人惊讶的是Python所花的时间仅比C
长约24倍。
我会注意到,这里的 相对 成本对于简单的数学运算而言最高。单个字节码执行的工作越多,解释器开销的重要性就越小。不幸的是,这种情况下,你的代码是什么
,但 简单的数学,所以Python(至少,CPython的)是在最坏的情况在这里。
至于加快速度,主要规则是:
range
可以为您完成这项工作时,您正在手动维护计数器(并节省了大量单独的字节码指令)。正如我所提到的,这是解释器开销最高的最简单,最便宜的操作,但是这些操作通常是您实际上不需要做的事情,因为通常有更好的方法(例如,for
循环range
而不是while
手动计数器调整循环)。numpy
。一次添加的所有开销都是不好的;支付1000个附加费是微不足道的。cdef
声明)ctypes
调用现有的C库,和/或写入原始Python的C扩展(当用Cython不能处理你想要的)除此之外,您只需要接受动态类型的解释型语言总是会产生编译型,静态类型化语言所没有的开销。
要解决第1点,您的代码的Python版本应如下所示:
def main():
sum = 1
for i in range(2, 100000):
for j in range(2, i):
if i%j == 0:
sum += 1
break
print(sum)
if __name__ == "__main__":
main()
您甚至可以将内部循环替换为:
sum += any(i % j == 0 for j in range(2, i))
尽管这不太可能带来任何性能上的好处,但是只是简化了一点代码。使用可以带来性能优势range
,它将增量和测试的所有基本数学运算捆绑到一个专用函数中,从而显着减少了开销。
为了说明字节码复杂度的不同,请考虑一个仅执行以下操作的函数,该函数使用while
和以及手动计数器或for
和进行循环range
:
def whileloop(n):
i = 0
while i < n:
i += 1
def forloop(n):
for i in range(n):
pass
分解每个功能显示:
3 0 LOAD_CONST 1 (0)
2 STORE_FAST 1 (i)
4 4 SETUP_LOOP 20 (to 26)
>> 6 LOAD_FAST 1 (i)
8 LOAD_FAST 0 (n)
10 COMPARE_OP 0 (<)
12 POP_JUMP_IF_FALSE 24
5 14 LOAD_FAST 1 (i)
16 LOAD_CONST 2 (1)
18 INPLACE_ADD
20 STORE_FAST 1 (i)
22 JUMP_ABSOLUTE 6
>> 24 POP_BLOCK
>> 26 LOAD_CONST 0 (None)
28 RETURN_VALUE
为whileloop
和:
8 0 SETUP_LOOP 16 (to 18)
2 LOAD_GLOBAL 0 (range)
4 LOAD_FAST 0 (n)
6 CALL_FUNCTION 1
8 GET_ITER
>> 10 FOR_ITER 4 (to 16)
12 STORE_FAST 1 (i)
9 14 JUMP_ABSOLUTE 10
>> 16 POP_BLOCK
>> 18 LOAD_CONST 0 (None)
20 RETURN_VALUE
在线尝试!
为forloop
。循环的主体(每次遍历执行一次,包括测试终止条件的东西),用于while
从LOAD_FAST
以下SETUP_LOOP
到的运行JUMP_ABSOLUTE
,每个循环包含9条指令;对于for
,它从FOR_ITER
到运行JUMP_ABSOLUTE
,仅包含三个指令。由于所有这些指令的工作都很琐碎,因此很容易看到对于带有while
循环的手动管理的计数器来说,循环本身的开销将如何显着增加。
我做了一个模型,预测一个字符在一个图像,做车牌识别。它在我的电脑上运行得非常好,但我需要把这项工作放在一个Android应用程序中。所以我开发了一个小应用程序,将我的keras模型转换为TFLITE。现在它总是预测同一个角色。 有没有更好的方法转换模型,还是我遗漏了什么? 编辑:这是我管理位图的操作
虽然使用IntelliJ13终极版一周,但它似乎真的很慢。 首先,整个IDE每隔一段时间就会停止一秒钟左右。Java编辑器的自动完成与12版本相比真的很慢。 除了使用德古拉主题之外,我没有从默认设置中更改任何内容。
本文向大家介绍成本差异和进度差异之间的差异,包括了成本差异和进度差异之间的差异的使用技巧和注意事项,需要的朋友参考一下 对于任何应用程序或专门用于任何项目,最关注的因素之一是在开发前和开发后阶段的预算管理和时间管理。因此,要评估任何项目的这两个主要因素,有很多方法,其中成本差异和进度差异是两个重要且主要的方法。 顾名思义,“成本差异”基于项目开发中花费的成本,而“进度差异”则基于相同开发中花费的时
我想知道为什么numpy中有一维的维度数组(length,1),也有一维的维数组(lendth,),没有第二个值。 我经常遇到这种情况,例如在使用< code>np.concatenate()时,这需要预先执行< code>reshape步骤(或者我可以直接使用< code > h stack /< code > v stack )。 我想不出这种行为可取的理由。有人能解释一下吗? 编辑:< br
问题内容: 我终于在代码中发现了性能瓶颈,但是对于原因是很困惑的。为了解决这个问题,我将所有对的调用都改为使用。但是为什么太慢了? 例如(注意在电话): 但是奇怪的是,写入使用创建的数组要慢于使用创建的数组: 我的猜测是使用一些CPU技巧,而不是实际写入内存来分配它。写入时可以即时完成。但这仍不能解释数组创建时间的巨大差异。 我正在使用当前的numpy版本运行Mac OS X Yosemite:
我在写需要加密和解密文件的应用程序。我的问题是解密比加密慢5倍。我已经删除了所有的文件读/写操作,并且只对加密进程进行了基准测试。结果非常令人惊讶: 使用(是javax.crypto.cipher的实例)加密1.5MB字节数组 我很惊讶,因为我知道AES解密和加密是对称的过程,在加密和解密速度上应该没有区别。 我使用密码,密钥为256位。