问题：

火花熄灭堆内存配置和钨丝

东方辉

2023-03-14

我认为，随着项目的整合，TUNGSTEN会自动使用堆外内存。

spark.memory.offheap.size和spark.memory.offheap.enabled?需要在此处手动指定钨的堆外内存量吗？

共有2个答案

曾飞雨

2023-03-14

spark是干什么的。记忆力堆外。尺寸和火花。记忆力堆外。是否启用？火花记忆力堆外。enabled：用于启用/禁用堆外内存使用的参数。火花记忆力堆外。大小：用于堆外分配的内存总量（以字节为单位）（来自本机内存）。它对堆内存使用没有影响，也确保不超过执行器的总限制。

我是否需要在此处手动指定钨的堆外内存量？对除了启用堆外内存外，还需要手动设置其大小，以便为spark应用程序使用堆外内存。请注意，堆外内存模型仅包括存储内存和执行内存。

下图是堆外内存运行时的抽象概念。

•如果启用了堆外内存，则执行器中将同时具有堆内内存和堆外内存。

•执行器的存储内存=存储内存堆内存储内存堆外存储内存

•执行器的执行内存=堆上的执行内存堆外的执行内存

申光临

2023-03-14

Spark/Wonder使用编码器/解码器将JVM对象表示为高度专业化的Spark SQL类型对象，然后可以以高性能的方式序列化和操作这些对象。内部格式表示非常高效，并且对GC内存利用非常友好。

因此，即使在默认的堆内模式下运行，钨也可以减轻JVM对象内存布局和GC操作时间的巨大开销。这种模式下的钨确实会为其内部目的在堆上分配对象，分配的内存块可能很大，但它发生的频率要低得多，并且可以顺利地在GC生成转换中幸存下来。这几乎消除了考虑将这种内部结构移出堆的需要。

在我们打开和关闭此模式的实验中，我们没有看到显著的运行时改进。但如果启用堆外模式，则需要仔细设计JVM进程外部的内存分配。这可能会给容器管理器（如纱线、Mesos等）带来一些困难，因为除了JVM进程配置之外，您还需要允许并计划额外的内存块。

此外，在堆外模式下，钨使用sun。杂项。不安全，这在您的部署场景中可能不是您想要的，甚至不可能（例如，使用限制性的java security manager配置）。

我还分享了Josh Rosen在被问及类似问题时的视频会议发言。

类似资料：

Java堆和堆栈内存分配

问题内容：是局部变量，将其存储在堆或堆栈中的何处？问题答案：在堆上。每当您用来创建对象时，它都会在堆上分配。
火花驱动程序内存和执行器内存

我是Spark的初学者，我正在运行我的应用程序，从文本文件中读取14KB的数据，执行一些转换和操作（收集、收集AsMap），并将数据保存到数据库我在我的macbook上本地运行它，内存为16G，有8个逻辑核。 Java最大堆设置为12G。这是我用来运行应用程序的命令。 bin/spark-submit-class com . myapp . application-master local[*
纱线持续灭火花EMR应用母版

我正在EMR EMR-4.3.0上运行一个spark应用程序，有1个主机和4个节点它们每一个都有5GB内存和2个核心。最后Yarn杀死了应用程序主人错误ApplicationMaster：接收信号15:SIGTERM 1）我是否可以进一步改进num-executors和executor-core的spark-submit选项。
火花内存不足错误

我的spark程序在小数据集上运行良好。（大约400GB）但是当我将其扩展到大型数据集时。我开始得到错误
堆栈和堆的内存分配量（c）

我试图了解分配给堆栈和堆的内存量。假设sizeof（char）=1字节，sizeof（void*）=4字节。给定以下代码：我们被告知分配给堆的内存量是5个字节，我明白这确实是malloc（strlen（str2）=5）中的量。但是，我不明白的是分配给堆栈的内存量是如何达到18个字节的？我想如果他们给我们一个指针大小是4个字节的信息，那么我们有4个字节的指针str1和另外6个字节的数组str2（包
火花再分配和合并

如果我想重新分区一个数据帧，如何决定需要做的分区数量？如何决定是使用重新分区还是合并？我知道合并基本上只是为了减少分区的数量。但是我们如何决定在什么情况下使用哪个呢？

火花熄灭堆内存配置和钨丝

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档