当前位置: 首页 > 工具软件 > Mem Reduct > 使用案例 >

【reduce_mem_usage函数,减少数据的内存】

寿元白
2023-12-01

写在前面的话

对于程序猿来说,我们会追求性能,效率。不例外地,记录下,用pandas读取csv,减少读取内存的一个常见方法。

import pandas as pd


def reduce_mem_usage(df, verbose=True):
    numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64']
    start_mem = df.memory_usage().sum() / 1024**2    
    for col in df.columns:
        col_type = df[col].dtypes
        if col_type in numerics:
            c_min = df[col].min()
            c_max = df[col].max()
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)  
            else:
                if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16)
                elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)    
    end_mem = df.memory_usage().sum() / 1024**2
    if verbose: print('Mem. usage decreased to {:5.2f} Mb ({:.1f}% reduction)'.format(end_mem, 100 * (start_mem - end_mem) / start_mem))
    return df

df = pd.read_csv('SupplyChain.csv')
df = reduce_mem_usage(df)

1.优化内存的几个方向

  1. 使用nrows和skip_rows来读取。提前申明dtype和usecols,可以节省内存空间。
    train_data=pd.read_csv(train_dir,skiprows=range(1,SKIP_ROWS),nrows=TRAIN_ROWS,dtype=dtypes,usecols=use_cols)

  2. 如果要兼顾内存和速度。可以使用reader来分块阅读。在创建reader的时候,并没有真正读取数据,等到for循环的时候才读取。
    train_reader=pd.read_csv(train_dir,iterator=True,chunksize=chunk_size,dtype=dtypes,usecols=use_cols)
    在for循环中,才真正读取数据。

for chunk in train_reader : 
	train_data=pd.concat([train_data,chunk],ignore_index=True)
  1. 要善用垃圾回收,及时删除不需要的变量
    del test_data
    gc.collect()

  2. 对数据进行类型转换,及时减少内存。
    train_data[col_name]=train_data[col_name].astype(‘uint8’)

  3. 转换数据格式
    使用其它格式能加速数据载入并且降低内存占用。好的选择像 GRIB、NetCDF、HDF 这样的二进制格式。
    有很多命令行工具能帮你转换数据格式,而且不需要把整个数据集载入内存里。换一种格式,可能帮助你以更紧凑的形式存储数据,节省内存空间;比如 2-byte 整数,或者 4-byte 浮点。

  4. 流式处理数据,或渐进式的数据加载
    所有数据如果不需要同时出现在内存里,可以用代码或库,随时把需要的数据做流式处理或渐进式加载,导入内存里训练模型。这可能需要算法使用优化技术迭代学习,比如使用随机梯度下降。那些需要内存里有所有数据、以进行矩阵运算的算法,比如某些对线性回归和逻辑回归的实现,就不适用了。
    比如,Keras 深度学习 API 就提供了渐进式加载图像文件的功能,名为 flow_from_directory
    另一个例子式 Pandas 库,可批量载入大型 CSV 文件。

  5. 使用关系数据库(Relational database)
    关系数据库为存储、访问大型数据集提供了标准化的方法。
    在内部,数据存在硬盘中,能渐进式地 in batch 批量加载,并使用标准检索语言 SQL 检索。
    像 MySQL、Postgres 这样的开源数据库工具,支持绝大多数的(全部?)编程语言。许多机器学习工具,都能直接与关系数据库连通。你也可以用 SQLite 这样更轻量的方法。这种方法对大型表格式数据集非常有效率。

其他优化内存资料

  1. Kaggle知识点:内存优化方法
  2. Pandas处理大数据集的方法(内存优化,减少内存使用量90%)
 类似资料: