当前位置: 首页 > 知识库问答 >
问题:

用熊猫阅读大型文本文件[重复]

双弘益
2023-03-14

我一直试图用Pandas使用read_csv函数读取一些大的文本文件(大小在1.4GB-2GB),但没有结果。以下是我正在使用的版本:

  • Python 2.7.6
  • Anaconda 1.9.2(64位)(默认值,2013年11月11日,10:49:15)[MSC v.1500 64位(AMD64)]
  • IPython 1.1.0
  • 熊猫0.13.1

我尝试了以下操作:

df = pd.read_csv(data.txt')

并且它使Ipython崩溃,并发出一条消息:kernel dead,restarting

然后我尝试使用迭代器:

tp = pd.read_csv('data.txt', iterator = True, chunksize=1000)

共有1个答案

汪天宇
2023-03-14

一个类似问题的解决方案在这个问题发布后的一段时间给出了这里。基本上,它建议通过执行以下操作以chunks的形式读取文件:

chunksize = 10 ** 6  # number of rows per chunk
for chunk in pd.read_csv(filename, chunksize=chunksize):
    process(chunk)

您应该根据计算机的功能指定chunksize参数(即,确保它能够处理块)。

 类似资料:
  • 我有一个1.5GB.dat文件需要作为pandas数据帧导入,我遇到了内存问题(8GB RAM)。如何将dat文件分解成块来执行分析?

  • 问题内容: 我正在尝试读取“ file.txt”,然后使用Golang将内容放入变量中。这是我尝试过的… 文件已成功读取,并且从 os.Open 返回的返回类型为 * os.File 问题答案: 这取决于您要执行的操作。 它输出&{0xc082016240}的原因是因为您正在打印文件描述符()的指针值,而不是文件内容。要获取文件内容,可以从文件描述符中获取。 要将所有文件内容(以字节为单位)读取到

  • 有什么能帮上忙的吗?

  • 我有一个包含日期列的csv文件,该文件中的日期格式为“dd.mm.yy”,当熊猫解析日期时,如果小于或等于12,它将日期理解为一个月,因此05.01.05变成01/05/2005。 我怎样才能解决这个问题 问候

  • 问题内容: 我正在使用python 3.6并尝试使用以下代码将json文件(350 MB)下载为pandas数据框。但是,出现以下错误: 我该如何解决错误? 问题答案: 如果以二进制()格式打开文件,则会得到字节。怎么样: