问题：

pyspark：Java.lang.OutOfMemoryError：Java堆空间

卫嘉佑

2023-03-14

我最近一直在我的服务器上使用PySpark和Ipython，服务器上有24个CPU和32GB RAM。它只在一台机器上运行。在我的过程中，我想收集大量的数据，如下代码所示：

train_dataRDD = (train.map(lambda x:getTagsAndText(x))
.filter(lambda x:x[-1]!=[])
.flatMap(lambda (x,text,tags): [(tag,(x,text)) for tag in tags])
.groupByKey()
.mapValues(list))

当我做的时候

training_data =  train_dataRDD.collectAsMap()

它给了我outOfMemory错误。Java堆空间。此外，我不能在此错误后对Spark执行任何操作，因为它失去了与Java的连接。它给出了py4jNetworkError：无法连接到Java服务器。

看起来堆空间很小。我怎么才能把它设置到更大的限度呢？

编辑：

运行前尝试的内容:sc._conf.set('spark.executor.memory','32g').set('spark.driver.memory','32g').set('spark.driver.maxresultssize','0')

我根据这里的文档更改了spark选项（如果您执行ctrl-f并搜索spark.executor.ExtraJavaOptions):http://spark.apache.org/docs/1.2.1/configuration.html

它说我可以通过设置spark.executor.memory选项来避免OOMs。我也做了同样的事，但似乎不起作用。

共有1个答案

赫连俊悟

2023-03-14

在尝试了配置参数的加载之后，我发现只有一个参数需要更改以启用更多的堆空间，即spark.driver.memory。

sudo vim $SPARK_HOME/conf/spark-defaults.conf
#uncomment the spark.driver.memory and change it according to your use. I changed it to below
spark.driver.memory 15g
# press : and then wq! to exit vim editor

关闭现有的spark应用程序并重新运行它。您将不会再遇到此错误。：）

类似资料：

PySpark：java.lang.OutofMemoryError：Java堆空间

问题内容：我最近在具有24个CPU和32GB RAM的服务器上使用了带有Ipython的PySpark。它仅在一台机器上运行。在我的过程中，我想收集以下代码中给出的大量数据：当我做它给我outOfMemory错误。。另外，此错误发生后，我无法在Spark上执行任何操作，因为它失去了与Java的连接。它给。看起来堆空间很小。如何设置更大的限制？编辑：我在运行之前尝试过的事情：我根据此
java.lang.OutOfMemoryError：Java堆空间

问题内容：我在执行多线程程序时遇到以下错误上面的错误发生在其中一个线程中。据我所知，堆空间仅由实例变量占用。如果这是正确的，那么为什么在运行一段时间后会出现此错误，因为在创建对象时分配了实例变量的空间。有什么办法可以增加堆空间？我应该对程序进行哪些更改，以使其占用更少的堆空间？问题答案：如果要增加堆空间，可以 -在命令行上使用。默认情况下，这些值基于JRE版本和系统配置。你可以在Ja
Java堆空间

我面临一些关于内存问题的问题，但我无法解决它。非常感谢您的帮助。我不熟悉Spark和pyspark功能，试图读取大约5GB大小的大型JSON文件，并使用每次运行上述语句时，都会出现以下错误：我需要以RDD的形式获取JSON数据，然后使用SQLSpark进行操作和分析。但是我在第一步（读取JSON）本身就出错了。我知道要读取如此大的文件，需要对Spark会话的配置进行必要的更改。我遵循了Apac
javax.servlet.ServletException：java.lang.OutOfMemoryError：Java堆空间

我想从网页上选定的文本中提取名词，并在文本显示时突出显示它们。所以我使用OpenNLP库来解析和获取名词列表。它在java类中运行良好，没有内存问题，尽管在显示输出之前花费了6-7秒，但当我在jsp页面中运行代码时，我得到了以下错误：根本原因我读到的一些解决方案建议通过这样做来增加apache tomcat的堆内存大小：所以我将其设置为-Xmx2g，但仍然会产生相同的错误。我认为我不需要修改
javamljava.lang.OutOfMemoryError：Java堆空间

我使用javaml训练分类器。现在，我的数据中的实例包含如下格式的向量 1 0:5 1:9 24:2 ...... 所以当我从文件中读取这些时，我使用string.split.然后将值放入稀疏实例中，然后将其添加到分类器中。然而，我得到了一个堆空间内存错误。我读过关于字符串的文章。split（）导致内存泄漏，因此我使用了新的String来避免内存泄漏。然而，我仍然面临堆空间问题代码如下所示 /
堆vs堆栈vs烫发空间

问题内容： Java内存空间（Perm空间，Space Stack，堆空间）之间有什么区别？ JVM什么时候使用一个或另一个？如果我使用Scala / Groovy / etc等，会有区别吗？问题答案：只是堆空间：所有活动对象都分配在这里。堆栈空间：在方法调用或变量实例化中存储对对象的引用以获取变量。烫发空间：存储已加载的类信息例如：执行完上述行之后，内存状态将是这样。堆：存储“

pyspark：Java.lang.OutOfMemoryError：Java堆空间

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档