这是对python内置哈希函数的适当使用吗？

慕凌

2023-03-14

问题内容：

我需要比较大量的数据进行平等的，我需要比较每秒多对，快速。保证每个对象的长度相同，有可能而且有可能在未知位置仅存在细微差异。

下面的时间表明，==如果在数据的开头附近存在差异，则使用算符的速度非常快，而如果在结尾处存在差异，则使用运算符的速度将显着降低。

>>> import os
>>> s = os.urandom(1600*1200 - 1)
>>> Aimg = b"A" + s
>>> Bimg = b"B" + s
>>> img1 = s + b"1"
>>> img2 = s + b"2"
>>> %timeit Aimg == Bimg
61.8 ns ± 0.484 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
>>> %timeit img1 == img2
159 µs ± 2.83 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

在我的用例中，差异可能位于字节的中间或末端（上下文：它是未压缩的图像数据）。我寻找一种使用哈希或校验和加快处理速度的方法。使用md5的速度较慢，但是Python的内置功能hash确实可以加快速度。

>>> %timeit img1 == img2
160 µs ± 5.96 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
>>> %timeit hash(img1) == hash(img2) and img1 == img2
236 ns ± 5.91 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

我感兴趣的是这个散列的技术细节，是不是足够哈希一样，当hash(a) == hash(b)那么a == b是 很容易
？如果哈希冲突相当少见，则误报是可以接受的，这是在平均情况下加快比较速度的快速途径。

问题答案：

Python的哈希函数专为提高速度而设计，并映射到64位空间中。由于生日悖论，这意味着您可能会在大约50亿个条目上发生冲突（可能更早了，因为哈希函数不是加密的）。另外，的确切定义hash取决于Python的实现，并且可能是特定于体系结构的，甚至是特定于机器的。如果您希望在多台计算机上获得相同的结果，请不要使用它。

md5被设计为加密哈希函数；输入中即使有轻微的扰动也会完全改变输出。它还映射到一个128位的空间，这使您几乎不可能遇到碰撞，除非您专门寻找一个碰撞。

如果您可以处理冲突（例如，可以通过使用MD5或SHA2等加密算法来测试存储桶中所有成员之间的相等性），那么Python的哈希函数就可以了。

还有一件事：为了节省空间，如果将数据写入磁盘，则应以二进制形式存储数据。（即struct.pack('!q', hash('abc'))/
hashlib.md5('abc').digest()）。

附带说明：is与==Python不等效。你是说==。

这是对python内置哈希函数的适当使用吗？

相关阅读

相关文章

相关问答

相关工具

相关文档