HDF5比CSV占用更多的空间？

聂昱

2023-03-14

问题内容：

考虑以下示例：

准备数据：

import string
import random
import pandas as pd

matrix = np.random.random((100, 3000))
my_cols = [random.choice(string.ascii_uppercase) for x in range(matrix.shape[1])]
mydf = pd.DataFrame(matrix, columns=my_cols)
mydf['something'] = 'hello_world'

设置HDF5的最高压缩率：

store = pd.HDFStore('myfile.h5',complevel=9, complib='bzip2')
store['mydf'] = mydf
store.close()

另存为CSV：

mydf.to_csv('myfile.csv', sep=':')

结果是：

myfile.csv 5.6 MB大
myfile.h5 11 MB大

数据集越大，差异越大。

我尝试了其他压缩方法和级别。这是一个错误吗？（我正在使用Pandas 0.11和HDF5和Python的最新稳定版本）。

问题答案：

我从问题中得到的答案的副本：https :
//github.com/pydata/pandas/issues/3651

您的样本实在太小。HDF5具有相当大的开销，而且尺寸非常小（即使较小的一侧也有300k条目）。以下是两边都没有压缩的情况。浮点数实际上更有效地以二进制形式（以文本形式）表示。

此外，HDF5是基于行的。通过使表不是很宽但是很长，可以提高效率。（因此，您的示例在HDF5中根本不是很有效，请在这种情况下将其存储换位）

我通常有超过1000万行的表，查询时间可以是ms。甚至下面的例子也很小。拥有10GB以上的文件非常普遍（更不用说10GB以上仅需几秒钟的天文学专家！）

-rw-rw-r--  1 jreback users 203200986 May 19 20:58 test.csv
-rw-rw-r--  1 jreback users  88007312 May 19 20:59 test.h5

In [1]: df = DataFrame(randn(1000000,10))

In [9]: df
Out[9]: 
<class 'pandas.core.frame.DataFrame'>
Int64Index: 1000000 entries, 0 to 999999
Data columns (total 10 columns):
0    1000000  non-null values
1    1000000  non-null values
2    1000000  non-null values
3    1000000  non-null values
4    1000000  non-null values
5    1000000  non-null values
6    1000000  non-null values
7    1000000  non-null values
8    1000000  non-null values
9    1000000  non-null values
dtypes: float64(10)

In [5]: %timeit df.to_csv('test.csv',mode='w')
1 loops, best of 3: 12.7 s per loop

In [6]: %timeit df.to_hdf('test.h5','df',mode='w')
1 loops, best of 3: 825 ms per loop

In [7]: %timeit pd.read_csv('test.csv',index_col=0)
1 loops, best of 3: 2.35 s per loop

In [8]: %timeit pd.read_hdf('test.h5','df')
10 loops, best of 3: 38 ms per loop

我真的不会担心大小（我怀疑您不是，只是感兴趣，这很好）。HDF5的要点是磁盘便宜，cpu便宜，但是您无法一次将所有内容都存储在内存中，因此我们通过分块进行优化

HDF5比CSV占用更多的空间？

准备数据：

设置HDF5的最高压缩率：

另存为CSV：

相关阅读

相关文章

相关问答

相关工具

相关文档