当前位置: 首页 > 知识库问答 >
问题:

我如何用熊猫读取一个大的csv文件?

贺季同
2023-03-14
MemoryError                               Traceback (most recent call last)
<ipython-input-58-67a72687871b> in <module>()
----> 1 data=pd.read_csv('aphro.csv',sep=';')

...

MemoryError: 

有什么能帮上忙的吗?

共有1个答案

太叔烨霖
2023-03-14

该错误显示计算机没有足够的内存来一次将整个CSV读入数据帧。假设您不需要一次在内存中全部存储整个数据集,避免该问题的一种方法是以块形式处理CSV(通过指定chunksize参数):

chunksize = 10 ** 6
for chunk in pd.read_csv(filename, chunksize=chunksize):
    process(chunk)

chunksize参数指定每个块的行数。(当然,最后一个块可能包含少于chunksize行。)

read_csvwithchunksize返回上下文管理器,使用方法如下:

chunksize = 10 ** 6
with pd.read_csv(filename, chunksize=chunksize) as reader:
    for chunk in reader:
        process(chunk)
 类似资料:
  • 每个月我都会以csv格式下载整个分类账并将其保存到文件夹中。如何在熊猫中将其作为单个数据帧读取

  • 我的问题是: > 如何使其与较大的文件一起工作? 有什么办法能让它快一点吗? 我的电脑有8GB的RAM,运行64位Windows 7,处理器是3.40GHz(不确定你需要什么信息)。

  • 我正在使用以下内容写入.csv文件: 当试图读取文件时: 我可以说添加了一个未命名的列。我该怎么弥补?

  • 问题内容: 这个问题已经在这里有了答案 : Python中的Windows路径 (5个答案) 4年前关闭。 追溯(最近一次通话): 产品中的文件“”,第1行= pd.read_csv(’C:\ amazon_baby.csv’) 在parser_f中的第562行的文件“ C:\ Users \ kvsn \ Anaconda3 \ lib \ site-packages \ pandas \ io

  • 用熊猫打开德国csv文件的最佳方式是什么? 我有一个包含以下列的德语csv文件: 基准:格式为“DD.MM”的日期。YYYY' Umlaute:带有德语特有字符的德语名称 扎伦:格式为“000.000,00”的数字 我的预期产出是: 下面提供了示例数据(见文件)。 这将引发一个: 这不会引发错误,但与我期望的输出相差甚远: 日期是字符串,而不是日期时间 现在,我有四行代码,但仍然不起作用。最后一行

  • 我有一个包含日期列的csv文件,该文件中的日期格式为“dd.mm.yy”,当熊猫解析日期时,如果小于或等于12,它将日期理解为一个月,因此05.01.05变成01/05/2005。 我怎样才能解决这个问题 问候