问题：

将熊猫数据帧转换为 pyspark 数据帧时出现内存不足错误

易俊友

2023-03-14

我有一个由180M行和4列（所有整数）组成的熊猫数据帧。我把它保存为泡菜文件，文件是5.8GB。我正在尝试使用spark_X = spark.createDataFrame（X）将熊猫数据帧转换为 pyspark 数据帧，但不断收到“内存不足”错误。

错误代码段为

Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.readRDDFromFile. : java.lang.OutOfMemoryError: Java heap space

我有超过200GB的内存，我不认为缺少物理内存是个问题。我了解到有多种内存限制，例如驱动内存-这可能是原因吗？

我该如何解决这个问题？

共有1个答案

邵弘义

2023-03-14

正如@bzu所建议的那样，这里的答案解决了我的问题。

不过，我确实必须手动创建$SPARK_HOME/conf文件夹和火花默认.conf文件，因为它们不存在。另外，我将设置更改为

spark.driver.memory 32g

类似资料：

将词典转换为数据帧熊猫时出错

我有一本这样的字典：我只是想把它转换成一个数据帧，其中的列是，等等，然后将索引设置为当前日期和小时，我将使用该代码作为。生成的如下所示：我的第一步是将dict转换为数据帧，就我而言，这段代码应该可以做到这一点：但是我得到这个错误消息：。我真的不知道这里有什么问题？任何建议都是很好的，如果有人能够解决将指数调整为bargin的问题，那就更好了。干杯
如何在dask数据帧内将xarray数据集转换为熊猫数据帧

我有一个需要一个数据帧作为输入的计算。我想对存储在扩展到51GB的netCDF文件中的数据运行此计算-目前，我一直在使用打开文件，并使用块（我的理解是，此打开的文件实际上是一个dask数组，因此一次只能将数据块加载到内存中）。但是，我似乎无法利用这种延迟加载，因为我必须将xarray数据转换为pandas数据帧才能运行我的计算——我的理解是，在这一点上，所有数据都加载到内存中（这是不好的）。所以
熊猫：将dbf表转换为数据帧

我想读取ArcGIS形状文件的文件，并将其转储到数据帧中。我目前正在使用dbf包。显然，我已经能够将文件作为一个表加载，但还不能理解如何解析它并将其转换为一个数据帧。怎么做？这就是我所处的困境： Python将此语句作为输出返回，坦率地说，我不知道该如何处理：编辑我的原始示例：
将熊猫数据帧转换为系列

我对熊猫有些陌生。我有一个熊猫数据框，是一行23列。我想把它转换成一个系列？我想知道做这件事最像蟒蛇的方式是什么？我试过pd。系列（我的结果），但它抱怨。它还没有聪明到意识到它仍然是数学术语中的“向量”。谢谢！
将熊猫数据帧转换为Numpy ndarray[重复]

我使用熊猫数据框来清理和处理数据。但是，我需要将其转换为numpy ndarray，以便使用利用矩阵乘法。我将数据框转换为具有以下内容的列表列表：这将返回以下结构：然后我将其转换为如下所示的numpy数组：然而，以下打印：给出这个结果：但是，我需要它们都是numpy数组。如果它不是来自熊猫数据帧，我只是转换一个硬编码列表，那么它们都是Ndarray。当列表是从数据帧生成的时，如何获取该列
将词典列表转换为熊猫数据帧

我有一个这样的字典列表：我想把它变成一个熊猫，如下所示：注意：列的顺序并不重要。如何将字典列表转换为如上所示的数据帧？

将熊猫数据帧转换为 pyspark 数据帧时出现内存不足错误

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档