当前位置: 首页 > 面试题库 >

加载速度更快:python中的pickle或hdf5

斜宁
2023-03-14
问题内容

给定一个1.5 Gb的熊猫数据帧列表, 哪种格式是加载压缩数据最快的格式 :pickle(通过cPickle),hdf5或Python中的其他格式?

  • 我只关心最快的速度将数据加载到内存中
  • 我不在乎转储数据,它很慢,但是我只做一次。
  • 我不在乎磁盘上的文件大小

问题答案:

我只考虑两种存储格式:HDF5(PyTables)和Feather

这是我对DF进行读写比较的结果(形状:4000000 x6,内存大小183.1 MB,未压缩CSV的大小-492 MB)。

以下存储格式比较:( ,CSV,,CSV.gzip [各种压缩]):Pickle``HDF5

                  read_s  write_s  size_ratio_to_CSV
storage
CSV               17.900    69.00              1.000
CSV.gzip          18.900   186.00              0.047
Pickle             0.173     1.77              0.374
HDF_fixed          0.196     2.03              0.435
HDF_tab            0.230     2.60              0.437
HDF_tab_zlib_c5    0.845     5.44              0.035
HDF_tab_zlib_c9    0.860     5.95              0.035
HDF_tab_bzip2_c5   2.500    36.50              0.011
HDF_tab_bzip2_c9   2.500    36.50              0.011

但这对您来说可能有所不同,因为我的所有数据都是datetimedtype,因此最好将它与 您的 真实数据或至少与相似数据进行比较…



 类似资料:
  • 问题内容: 从CSV加载数据似乎比从Pandas的SQL(Postgre SQL)加载数据要快。(我有一个固态硬盘) 这是我的测试代码: foo.csv和数据库是相同的(两个列中的数据和列数相同,4列,100000行充满随机int)。 CSV需要0.05秒 SQL花费0.5秒 您认为CSV比SQL快10倍是正常的吗?我想知道我是否在这里错过了什么… 问题答案: 这是正常现象,读取csv文件始终是简

  • 图片是放在金蝶服务器上,前端页面el-image的src放图片的访问路径,加载的速度得4 5秒吧,请问大神这种情况怎么优化,使图片的加载速度变快?

  • 问题内容: 考虑以下python程序: 在我的6GB文本文件上运行它,大约2分钟即可完成。 问题: 是否可以更快? 请注意,以下情况需要相同的时间: 因此,我怀疑我的疑问只是一个简单的“否”。 还要注意,我的真实程序正在做的事情不仅仅是计数行数,因此请给出一个通用的答案, 而不是 行数计数技巧(例如在文件中保留行数元数据) PS:我将此问题标记为“ linux”,因为我仅对特定于linux的答案感

  • 问题内容: 我有这样的东西: 我的问题是循环的每次迭代都很慢。问题是MySQL。我想知道是否可以在while循环中放入某种包装程序,以使其一次获取多个记录,同时将所有记录获取到内存中也不可行。我不担心代码的效率(hashref与arrayref等)。相反,我有兴趣一次获取10000条记录。 该数据库有约500万条记录。我无法更改/升级服务器。 谢谢 问题答案: 您可以使用fetchall_arra

  • 问题内容: 在HTTP协议中,您可以使用keep- alive在一个套接字中发送许多请求,然后立即接收来自服务器的响应,这样可以大大加快整个过程。有什么办法可以在python请求库中做到这一点吗?还是有其他方法可以使用请求库来加快速度呢? 问题答案: 就在这里。使用,默认情况下它将保持活动状态。 我想我应该举一个简单的例子: 您将注意到这些日志消息发生 如果您稍等片刻,然后重复上一次通话 请注意,

  • 当我通过VS代码运行我的网页时,我的所有图片都会显示出来,但由于某种原因,当我通过localhost运行网页时,没有任何图片或CSS被发送。这是我下面的代码,任何帮助都将不胜感激。我曾试图在网上找到解决方案,但迄今为止似乎没有任何效果。 这是我的文件结构