问题：

减少的并行性是否可以导致没有shuffle溢出？

慎俊艾

2023-03-14

考虑一个示例：

我有一个包含5个节点的集群，每个节点有64个核，内存为244 GB。

我决定在每个节点上运行3个执行器，并将执行器核心设置为21个，执行器内存为80GB，这样每个执行器可以并行执行21个任务。现在考虑315个(63*5)个数据分区，其中314个分区的大小为3GB，但其中一个分区的大小为30GB（由于数据偏斜）。

所有接收到3GB分区的执行器都占用了63GB（21*3=因为每个执行器可以并行运行21个任务，每个任务占用3GB内存空间）。

那么在这种情况下，并行度的降低会不会导致没有shuffle溢出呢？

共有1个答案

管景天

2023-03-14

@Venkat Dabri,

你能用适当的回车/空格来设置问题的格式吗？

这里有几个要点

为了减轻这种情况，在默认的限制范围内，Spark采用了许多优化（压缩/Wungsten-Sort-Shuffle等），但是作为一个开发人员，我们可以尝试智能地重新划分倾斜的数据，并调整默认的并行性

类似资料：

有序流上的减少是否按顺序减少？

我有一个a、B、C的
联合减少JDBC读取并行性

我利用的功能如下： < li >将< code>MySQL表读入< code>DataFrame < li >改造他们 < li >合并它们 < li >写给< code>HDFS 在的整个生命周期中，没有对其执行s。它曾经像预期的那样工作，但最近我遇到了问题。由于的延迟求值，导致读取操作的并行性降低。因此，如果我读取使用与，然后
是否可以使用没有href属性的（锚标签）？

问题内容：我一直在使用TwitterBootstrap构建网站，其许多功能都依赖于将内容包装在中，即使它们只是执行Javascript也是如此。我在Bootstrap文档所建议的策略上遇到了问题，因此我试图寻找其他解决方案。但是后来我尝试完全删除该属性。我一直在使用，并让Javascript处理其余部分。而且有效。但是有件事告诉我我不应该这样做。对？我的意思是，从技术上讲，它应该是某事的链接
topic的分区数可不可以减少？如果可以怎么减少？如果不可以，那又是为什么？

本文向大家介绍topic的分区数可不可以减少？如果可以怎么减少？如果不可以，那又是为什么？相关面试题，主要包含被问及topic的分区数可不可以减少？如果可以怎么减少？如果不可以，那又是为什么？时的应答技巧和注意事项，需要的朋友参考一下不可以减少，被删除的分区数据难以处理。
编译器优化可能会导致整数溢出。可以吗？

我有一个。为简单起见，假设 s 占据范围 -2^31 到 2^31-1。我想计算。我允许是任何值 0 一种解决方案是计算< code>2*(x-1) 1。比我想要的多了一个减法，但是这个不应该溢出来。但是，编译器会将其优化为< code>2*x-1。这是源代码的问题吗？这是可执行文件的问题吗？以下是的弩线输出：以下是的闩线输出：
jsf h：datatable是否可以有多行

问题内容：使用h：datatable，我们可以如下显示数据杰姆斯汤姆 rs 哈里但我可以显示如下所示的内容：杰姆斯2.汤姆克里斯4.哈里拉斐兹，阿比问题答案：您可以使用支持“ newspaperColumns”和“ newspaperOrientation”属性的t：dataTable组件。NewsColumns确定表格将被划分的列数，并且报纸定向在报纸表格中确定报纸列的方向。

减少的并行性是否可以导致没有shuffle溢出？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档