当前位置: 首页 > 知识库问答 >
问题:

减少的并行性是否可以导致没有shuffle溢出?

慎俊艾
2023-03-14

考虑一个示例

我有一个包含5个节点的集群,每个节点有64个核,内存为244 GB。

我决定在每个节点上运行3个执行器,并将执行器核心设置为21个,执行器内存为80GB,这样每个执行器可以并行执行21个任务。现在考虑315个(63*5)个数据分区,其中314个分区的大小为3GB,但其中一个分区的大小为30GB(由于数据偏斜)。

所有接收到3GB分区的执行器都占用了63GB(21*3=因为每个执行器可以并行运行21个任务,每个任务占用3GB内存空间)。

那么在这种情况下,并行度的降低会不会导致没有shuffle溢出呢?

共有1个答案

管景天
2023-03-14

@Venkat Dabri,

你能用适当的回车/空格来设置问题的格式吗?

这里有几个要点

为了减轻这种情况,在默认的限制范围内,Spark采用了许多优化(压缩/Wungsten-Sort-Shuffle等),但是作为一个开发人员,我们可以尝试智能地重新划分倾斜的数据,并调整默认的并行性

 类似资料:
  • 我利用的功能如下: < li >将< code>MySQL表读入< code>DataFrame < li >改造他们 < li >合并它们 < li >写给< code>HDFS 在的整个生命周期中,没有对其执行s。它曾经像预期的那样工作,但最近我遇到了问题。由于的延迟求值,导致读取操作的并行性降低。 因此,如果我读取使用与,然后

  • 问题内容: 我一直在使用TwitterBootstrap构建网站,其许多功能都依赖于将内容包装在中,即使它们只是执行Javascript也是如此。我在Bootstrap文档所建议的策略上遇到了问题,因此我试图寻找其他解决方案。 但是后来我尝试完全删除该属性。我一直在使用,并让Javascript处理其余部分。而且有效。 但是有件事告诉我我不应该这样做。对?我的意思是,从技术上讲,它应该是某事的链接

  • 本文向大家介绍topic的分区数可不可以减少?如果可以怎么减少?如果不可以,那又是为什么?相关面试题,主要包含被问及topic的分区数可不可以减少?如果可以怎么减少?如果不可以,那又是为什么?时的应答技巧和注意事项,需要的朋友参考一下 不可以减少,被删除的分区数据难以处理。

  • 我有一个。为简单起见,假设 s 占据范围 -2^31 到 2^31-1。我想计算。我允许 是任何值 0 一种解决方案是计算< code>2*(x-1) 1。比我想要的多了一个减法,但是这个不应该溢出来。但是,编译器会将其优化为< code>2*x-1。这是源代码的问题吗?这是可执行文件的问题吗? 以下是 的弩线输出: 以下是 的闩线输出:

  • 问题内容: 使用h:datatable,我们可以如下显示数据 杰姆斯 汤姆 rs 哈里 但我可以显示如下所示的内容: 杰姆斯2.汤姆 克里斯4.哈里 拉斐兹,阿比 问题答案: 您可以使用支持“ newspaperColumns”和“ newspaperOrientation”属性的t:dataTable组件。NewsColumns确定表格将被划分的列数,并且报纸定向在报纸表格中确定报纸列的方向。