当前位置: 首页 > 知识库问答 >
问题:

将大型数据文件导入熊猫[副本]

张可人
2023-03-14

我有一个1.5GB.dat文件需要作为pandas数据帧导入,我遇到了内存问题(8GB RAM)。如何将dat文件分解成块来执行分析?

共有1个答案

糜野
2023-03-14
pd.read_csv('file.csv', chunksize = x)

返回一个迭代器,每次给出file.csv中的x行。

 类似资料:
  • Python是如何将CSV文件读入pandas数据帧的(我可以使用它进行统计操作,可以有不同类型的列,等等)? 我的CSV文件有以下内容: 在R中,我们将使用以下方法读取此文件: 这将返回一个R数据。框架: 有没有类似python的方法来获得相同的功能?

  • 问题内容: 如何将大数据文件分块写入CSV文件? 我有一组大型数据文件(1M行x 20列)。但是,我只关注该数据的5列左右。 我想通过只用感兴趣的列制作这些文件的副本来使事情变得更容易,所以我可以使用较小的文件进行后期处理。因此,我计划将文件读取到数据帧中,然后写入csv文件。 我一直在研究将大数据文件以块的形式读入数据框。但是,我还无法找到有关如何将数据分块写入csv文件的任何信息。 这是我现在

  • 我一直试图用Pandas使用函数读取一些大的文本文件(大小在1.4GB-2GB),但没有结果。以下是我正在使用的版本: Python 2.7.6 Anaconda 1.9.2(64位)(默认值,2013年11月11日,10:49:15)[MSC v.1500 64位(AMD64)] IPython 1.1.0 熊猫0.13.1 我尝试了以下操作: 并且它使Ipython崩溃,并发出一条消息:。 然

  • 我正在处理一个非常宽的数据集(1005行*590,718列,1.2g)。将如此大的数据集加载到pandas dataframe中会导致完全由于内存不足而导致代码失败。 我知道Spark可能是处理大型数据集的Pandas的一个很好的替代方案,但是Pandas中是否有任何适合的解决方案来减少加载大型数据时的内存占用?

  • 问题内容: 我正在使用python 3.6并尝试使用以下代码将json文件(350 MB)下载为pandas数据框。但是,出现以下错误: 我该如何解决错误? 问题答案: 如果以二进制()格式打开文件,则会得到字节。怎么样:

  • 所以我得到了一个看起来像这样的数据帧:原始数据帧 我需要对数据帧进行转换,使其看起来如下所示: 有谁知道怎么用熊猫?