当前位置: 首页 > 知识库问答 >
问题:

使用多重处理地图与熊猫数据帧?

陶博涉
2023-03-14

我正在使用(python的)panda的map函数来处理一个大的CSV文件(约50GB),如下所示:

import pandas as pd

df = pd.read_csv("huge_file.csv")
df["results1"], df["results2"] = df.map(foo)
df.to_csv("output.csv")

有没有一种方法可以在这方面使用并行化?也许使用多处理的map函数?

谢了,荷西

共有1个答案

后焕
2023-03-14

请参见此处的分块阅读文档、此处的示例和此处的附录

你最好以块的形式读取你的csv,进行处理,然后将其写入csv(当然,你最好转换为HDF)。

  • 占用相对恒定的内存量
  • 高效,可以并行完成(通常需要一个HDF文件,您可以从中选择节;csv不适合这样做)
  • 直接进行多重处理不太复杂
 类似资料:
  • 问题内容: 我有一个熊猫系列,目前看起来像这样: 我想从根本上将其重塑成一个看起来像这样的数据框… 即。逻辑构造,指出每个观察(行)属于哪个类别。 我能够编写基于循环的代码来解决该问题,但是鉴于我需要处理的行数众多,这将非常缓慢。 有谁知道针对这种问题的矢量化解决方案?我将不胜感激。 编辑:有509个类别,我确实有一个清单。 问题答案:

  • 我有这个熊猫数据框 这就给了我: 我该怎么办 做一个新的人物, 将标题添加到图"标题这里" 以某种方式创建一个映射,这样标签不是29,30等,而是“29周”,“30周”等。 将图表的较大版本保存到我的计算机(例如10 x 10英寸) 这件事我已经琢磨了一个小时了!

  • 这似乎是非常基本的知识,但我还是卡住了,尽管我有一些数据处理的理论背景(通过其他软件)。值得一提的是,我是蟒蛇和熊猫图书馆的新手。 我的任务是将系列名称列的值作为单独的列(从长到宽转换)。我花了很长时间尝试不同的方法,但只有错误。 例如: 我犯了一个错误: ...很多短信...通过值的长度是2487175,索引暗示2 有谁能指导我完成这个过程吗?谢谢 它用于代码“mydata=mydata”。pi

  • 我有一个看起来像这样的数据集(最多5列-但可以更少) 我试图使用pandas read_表将其读入一个5列数据帧。我想在没有额外按摩的情况下阅读这篇文章。 如果我尝试 我得到一个错误-“列名有5个字段,数据有3个字段”。 有没有办法让熊猫在读取数据的同时为缺失的列填写NaN?

  • 假设我有一个数据帧 我从我的数据子集创建另一个数据帧: 是否保存了中这些元素的副本?有没有办法创建该数据的?如果是这样,如果我尝试修改此视图中的数据会发生什么情况?Pandas是否提供任何类型的写时拷贝机制?

  • 我有一个数据框架,目前看起来是这样的, 数据框架1 我需要创建一个像这样的数据帧。 数据框架2 我需要从数据帧1列的值填充数据帧2的列。图片显示了示例。对此应该有什么算法和过程? 这是示例数据集