Python 3.3中的哈希函数在会话之间返回不同的结果

胥英奕

2023-03-14

问题内容：

我已经在python 3.3中实现了BloomFilter，并且每次会话都得到不同的结果。深入研究这种奇怪的行为，使我进入了内部hash（）函数-
它在每个会话中为同一字符串返回不同的哈希值。

例：

>>> hash("235")
-310569535015251310

-----打开一个新的python控制台-----

>>> hash("235")
-1900164331622581997

为什么会这样呢？为什么这有用？

问题答案：

Python使用随机散列种子，通过向您发送旨在冲突的密钥来防止攻击者对应用程序进行处理。请参阅原始漏洞披露。通过使用随机种子（在启动时设置一次）偏移哈希值，攻击者无法再预测哪些键会发生冲突。

您可以通过设置PYTHONHASHSEED环境变量来设置固定种子或禁用功能；默认值为，random但您可以将其设置为固定的正整数值，同时0完全禁用该功能。

Python 2.7和3.2版本默认情况下禁用此功能（使用-R开关或将PYTHONHASHSEED=random其启用）；默认在Python
3.3及更高版本中启用。

如果您依赖于Python集合中键的顺序，那么就不用了。Python使用哈希表来实现这些类型，它们的顺序取决于插入和删除历史记录以及随机哈希种子。请注意，在Python 3.5及更低版本中，这也适用于字典。

另请参见object.__hash__()特殊方法文档：

注意
：默认情况下，__hash__()str，bytes和datetime对象的值使用不可预测的随机值“加盐”。尽管它们在单个Python进程中保持不变，但在重复调用Python之间是不可预测的。

这旨在提供保护，防止由于精心选择的输入而导致的拒绝服务，这些输入利用了dict插入的最坏情况的性能O（n ^
2）复杂性。有关详细信息，请参见http://www.ocert.org/advisories/ocert-2011-003.html。

更改哈希值会影响字典，集合和其他映射的迭代顺序。Python从未保证过这种顺序（通常在32位和64位版本之间有所不同）。

另请参阅PYTHONHASHSEED。

如果需要稳定的哈希实现，则可能需要查看hashlib模块；这实现了加密哈希函数。该pybloom项目采用这种做法。

由于偏移量由前缀和后缀（分别为起始值和最终XORed值）组成，因此，不幸的是，您不能仅存储偏移量。从正面来看，这确实意味着攻击者也无法通过定时攻击轻松确定偏移量。

Python 3.3中的哈希函数在会话之间返回不同的结果

相关阅读

相关文章

相关问答

相关工具

相关文档