问题：

使用多重处理地图与熊猫数据帧？

陶博涉

2023-03-14

我正在使用（python的）panda的map函数来处理一个大的CSV文件（约50GB），如下所示：

import pandas as pd

df = pd.read_csv("huge_file.csv")
df["results1"], df["results2"] = df.map(foo)
df.to_csv("output.csv")

有没有一种方法可以在这方面使用并行化？也许使用多处理的map函数？

谢了，荷西

共有1个答案

后焕

2023-03-14

请参见此处的分块阅读文档、此处的示例和此处的附录

你最好以块的形式读取你的csv，进行处理，然后将其写入csv（当然，你最好转换为HDF）。

占用相对恒定的内存量
高效，可以并行完成（通常需要一个HDF文件，您可以从中选择节；csv不适合这样做）
直接进行多重处理不太复杂

类似资料：

熊猫：重塑数据

问题内容：我有一个熊猫系列，目前看起来像这样：我想从根本上将其重塑成一个看起来像这样的数据框… 即。逻辑构造，指出每个观察（行）属于哪个类别。我能够编写基于循环的代码来解决该问题，但是鉴于我需要处理的行数众多，这将非常缓慢。有谁知道针对这种问题的矢量化解决方案？我将不胜感激。编辑：有509个类别，我确实有一个清单。问题答案：
熊猫数据帧绘图

我有这个熊猫数据框这就给了我：我该怎么办做一个新的人物，将标题添加到图"标题这里" 以某种方式创建一个映射，这样标签不是29,30等，而是“29周”，“30周”等。将图表的较大版本保存到我的计算机（例如10 x 10英寸）这件事我已经琢磨了一个小时了！
Python熊猫重塑数据帧

这似乎是非常基本的知识，但我还是卡住了，尽管我有一些数据处理的理论背景（通过其他软件）。值得一提的是，我是蟒蛇和熊猫图书馆的新手。我的任务是将系列名称列的值作为单独的列（从长到宽转换）。我花了很长时间尝试不同的方法，但只有错误。例如：我犯了一个错误： ...很多短信...通过值的长度是2487175，索引暗示2 有谁能指导我完成这个过程吗？谢谢它用于代码“mydata=mydata”。pi
使用熊猫处理可变数量的列-Python

我有一个看起来像这样的数据集（最多5列-但可以更少）我试图使用pandas read_表将其读入一个5列数据帧。我想在没有额外按摩的情况下阅读这篇文章。如果我尝试我得到一个错误-“列名有5个字段，数据有3个字段”。有没有办法让熊猫在读取数据的同时为缺失的列填写NaN？
熊猫：子索引数据帧：副本与视图

假设我有一个数据帧我从我的数据子集创建另一个数据帧：是否保存了中这些元素的副本？有没有办法创建该数据的？如果是这样，如果我尝试修改此视图中的数据会发生什么情况？Pandas是否提供任何类型的写时拷贝机制？
熊猫：重塑数据框架

我有一个数据框架，目前看起来是这样的，数据框架1 我需要创建一个像这样的数据帧。数据框架2 我需要从数据帧1列的值填充数据帧2的列。图片显示了示例。对此应该有什么算法和过程？这是示例数据集

使用多重处理地图与熊猫数据帧？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档