纱线上的Spark在启动执行器时是否处理数据局部性

连德水

2023-03-14

共有1个答案

海翼

2023-03-14

你说得对

spark在执行器上调度任务时注意数据的局部性

当Yarn启动一个执行器时，它不知道您的数据在哪里。因此，在理想情况下，您可以在集群的所有节点上启动executor。然而，更实际的情况是，您只能在节点的子集上启动。

类似资料：

在纱线簇上执行Spark Submit时看不到纱线作业

我正在使用spark submit执行以下命令： spark submit script\u测试。py—主纱线—部署模式群集spark submit script\u测试。py—主纱线簇—部署模式簇这工作做得很好。我可以在Spark History Server UI下看到它。但是，我无法在RessourceManager UI（纱线）下看到它。我感觉我的作业没有发送到集群，但它只在一个节点上
apache spark执行器和数据局部性

如果我理解正确的话，在静态分配中，当Spark上下文在集群中的所有节点上创建时（在集群模式下），Spark应用程序将获取执行器。我有几个问题 > 如果在所有节点上都获得了执行器，并且在整个应用程序的持续时间内一直分配给这个应用程序，那么是否有很多节点都处于空闲状态？在创建Spark上下文而不是在DagScheduler中时获取资源的优势是什么？我的意思是应用程序可以任意长，它只是保存资源。我检
纱线中的CPU调度是否真的会改善spark中的并行处理？

如果我提交这样的spark作业，则具有容量调度器的YARN在为用户请求分配资源时只会考虑内存”-master YARN--deploy mode client--驱动程序内存4g--执行器内存4g--num executors 1--executor cores 3”，YARN会分配一个具有4gb内存和1个vcpu的执行器，但在执行任务时，它会并行执行3个任务。它是单独使用那个单核一次执行3个任
Spark的KMeans是否无法处理大数据？

问题内容： KMeans有几个用于训练的参数，初始化模式默认为kmeans ||。问题在于它快速前进（不到10分钟）到前13个阶段，但随后完全挂起，而不会产生错误！ *重现问题的 *最小示例（如果我使用1000点或随机初始化，它将成功）：如下所示，该作业不执行任何操作（该操作不会成功，失败或没有进展。）。“执行器”选项卡中没有活动/失败的任务。Stdout和Stderr Logs没有特别有
如何理解spark submit script master是纱线？

我们在所有节点上都有6台机器、hdfs和纱线服务，1个主节点和6个从节点。我们在3台机器上安装Spark，1台主机器，3个工人（1个节点主工人）。我们知道，当主spark://[主机]：[端口]时，作业将仅运行3个节点，使用独立模式。当使用spark submit--master Thread提交一个jar时，它会使用所有6个服务器cpu和内存，还是只使用3个spark worker节点机器？如果
纱线：在Spark中，执行者的数量和执行者的核心有什么不同？

我正在AWS EMR上学习火花。在这个过程中，我试图理解执行者数量（--num-executors）和执行者核心（--executor-cores）之间的区别。谁能告诉我这里吗？同样，当我试图提交以下作业时，我得到了错误：

纱线上的Spark在启动执行器时是否处理数据局部性

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档