问题：

Sparkyr中的堆空间不足，但内存充足

西门良才

2023-03-14

即使在相当小的数据集上，我也会遇到堆空间错误。我可以确定我没有耗尽系统内存。例如，考虑一个包含大约20M行和9列的数据集，它占用了磁盘上的1GB。我正在一个具有30gb内存的Google Compute节点上玩它。

假设我在一个名为df的数据框中有这些数据。以下操作很好，但速度有点慢：

library(tidyverse) 
uniques <- search_raw_lt %>%
    group_by(my_key) %>%
    summarise() %>%
    ungroup()

下面抛出java。lang.OutOfMemoryError：Java堆空间。

library(tidyverse)
library(sparklyr)
sc <- spark_connect(master = "local")

df_tbl <- copy_to(sc, df)

unique_spark <- df_tbl %>%
  group_by(my_key) %>%
  summarise() %>%
  ungroup() %>%
  collect()

我尝试了这个建议，以增加要激发的堆空间。问题仍然存在。观察机器在htop上的状态，我发现总内存使用量从未超过10gb。

library(tidyverse)
library(sparklyr)

config <- spark_config()
config[["sparklyr.shell.conf"]] <- "spark.driver.extraJavaOptions=-XX:MaxHeapSize=24G"

sc <- spark_connect(master = "local")

df_tbl <- copy_to(sc, df)

unique_spark <- df_tbl %>%
  group_by(my_key) %>%
  summarise() %>%
  ungroup() %>%
  collect()

最后，根据桑迪普的评论，我尝试将MaxHeapSize降低到4G。（MaxHeapSize是每个虚拟工作者还是整个Spark本地实例？）我仍然收到堆空间错误，而且我没有使用太多系统内存。

共有1个答案

南门建章

2023-03-14

在研究Sandeep的建议时，我开始深入研究Sparkyr部署说明。其中提到驱动程序在此阶段可能会耗尽内存，并调整一些设置以更正它。

这些设置没有解决问题，至少最初没有。然而，将问题隔离到collect阶段允许我使用SparkR在SO上找到类似的问题。

这些答案部分取决于设置环境变量SPARK_MEM。把它们放在一起，我让它工作如下：

library(tidyverse)
library(sparklyr)

# Set memory allocation for whole local Spark instance
Sys.setenv("SPARK_MEM" = "13g")

# Set driver and executor memory allocations
config <- spark_config()
config$spark.driver.memory <- "4G"
config$spark.executor.memory <- "1G"

# Connect to Spark instance
sc <- spark_connect(master = "local")

# Load data into Spark
df_tbl <- copy_to(sc, df)

# Summarise data
uniques <- df_tbl %>%
  group_by(my_key) %>%
  summarise() %>%
  ungroup() %>%
  collect()

类似资料：

Maven:内存不足错误-堆空间

问题:我运行< code>mvn全新安装-dskipstest 并得到更多信息： > < li> 操作系统:OS X (16 GB内存) Java配置:位于< code > ~/Libraries/Preferences/intelli jide a13/Idea . vmoptins 和< code > Applications/IntelliJ \ Idea \ 13.app/bin/ide
了解JVM内存分配和Java内存不足：堆空间

问题内容：我正在研究真正了解JVM中内存分配的工作方式。我正在编写一个内存不足的应用程序：堆空间异常。我知道我可以传入VM参数（例如Xms和Xmx）来增加JVM为正在运行的进程分配的堆空间。这是解决此问题的一种可能的解决方案，或者我可以检查代码是否存在内存泄漏并在那里解决问题。我的问题是： 1）JVM如何实际为其分配内存？这与OS如何将可用内存传递给JVM有什么关系？或更一般而言，任何进程的
了解JVM内存分配和Java内存不足：堆空间

我想真正了解内存分配在JVM中是如何工作的。我正在编写一个内存不足的应用程序：堆空间异常。我知道我可以传入VM参数，如Xms和Xmx，以增加JVM为正在运行的进程分配的堆空间。这是一个可能的解决方案，或者我可以检查我的代码内存泄漏并修复那里的问题。我的问题是： 1)JVM实际上如何为自己分配内存？这与OS如何将可用内存传递给JVM有什么关系？或者更一般地说，为任何进程分配内存实际上是如何工作的
获取“ Java堆空间”和“内存不足”时的Eclipse内存设置

问题内容：尝试在Eclipse中启动和运行flex / java项目时，我一直使用Eclipse，Tomcat和JRE收到“内存不足异常”和“ Java堆空间”。在研究尝试调整内存设置时，我发现了三个地方来调整这些设置： Eclipse.ini 窗口>首选项下的JRE设置 Catalina.sh或Catalina.bat 在这些不同位置设置-xms和-xmx有什么区别，这是什么意思？有什么方
Node.js堆内存不足

问题内容：今天，我运行了用于文件系统索引编制的脚本，以刷新RAID文件索引，并在4小时后崩溃并出现以下错误：服务器配备16GB RAM和24GB SSD交换。我非常怀疑我的脚本是否超过了36gb的内存。至少不应该脚本使用文件元数据（修改日期，权限等，无大数据）创建存储为对象数组的文件索引过去，我曾经用此脚本经历过奇怪的节点问题，这使我不得不这样做。在处理诸如String之类的大文件时，由于
堆内存不足,java

我是刚到爪哇的。我只是试图了解如何处理堆内存溢出及其原因。有人能在下面的代码中帮助我为什么它会抛出这个错误吗。我怎么能避免。错误：线程“main”Java.lang.OutOfMemoryError中出现异常：Java.util.arrays.copyof(arrays.Java:2361)在Java.lang.AbstractStringBuilder.ExpandCapacity（Abst

Sparkyr中的堆空间不足，但内存充足

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档