当前位置：首页 > 知识库问答 >

问题：

在同一JVM中运行多个Spark任务有什么好处？

费承载

2023-03-14

不同的来源（例如1和2）声称Spark可以从在同一JVM中运行多个任务中获益。但他们没有解释原因。

这些好处是什么？

共有2个答案

潘修文

2023-03-14

最大的可能优势是共享内存，特别是处理广播对象。因为这些对象被认为是只读的，所以可以在多个线程之间共享。

在使用单个任务/执行器的场景中，您需要为每个JVM提供一个副本，因此对于N个任务有N个副本。对于大型对象，这可能是一个严重的开销。

相同的逻辑可以应用于其他共享对象。

冯曾笑

2023-03-14

正如已经说过的，广播变量是一回事。

另一个是并发问题。看看这段代码：

var counter = 0
var rdd = sc.parallelize(data)

rdd.foreach(x => counter += x)

println(counter)

结果可能会有所不同，取决于是在本地执行还是在部署在集群上的Spark（使用不同的JVM）上执行。在后一种情况下，并行化方法在执行器之间拆分计算。闭包（每个节点执行任务所需的环境）是计算的，这意味着每个执行器都会收到计数器的副本。每个执行器都会看到自己的变量副本，因此计算的结果为0，因为没有一个执行器引用了正确的对象。另一方面，在一个JVM中，计数器对每个工作人员都是可见的。

当然，有一种方法可以避免这种情况-使用Acumulators（请参阅此处）。

最后但同样重要的是，当在内存中持久化RDDs时（默认的缓存方法存储级别是MEMORY_ONLY），它将在单个JVM中可见。这也可以通过使用OFF_HEAP来克服（这在2.4.0中是实验性的）。更多信息。

类似资料：

在同一JVM中同时运行多个spark实例的最佳实践？

我的查询如下： > 在我的应用程序中，我需要在计划中同时运行多个pyspark应用程序。是否有任何方法可以同时从spark驱动程序运行多个pyspark应用程序，从而创建单独的sparkcontext对象？如果第一个查询的答案是否定的，那么我可以运行一个应用程序从驱动程序，另一个从执行程序，但我可以一次运行它。 null 配置:VM-1:Hadoop主节点、Spark驱动程序和执行程序、Mong
Apache Spark在一个执行器上运行一个任务

我有一个spark作业，它从数据库中读取数据，执行过滤、联合、2连接，最后将结果写回数据库。然而，最后一个阶段仅在50个执行器中的一个执行器上运行一个任务。我试图增加分区的数量，使用哈希分区，但没有成功。经过几个小时的谷歌搜索，似乎我的数据可能会但我不知道如何解决它。有什么建议吗？规格: < li >独立群集 < li>120核心 < li>400G内存遗嘱执行人： 30个执行器（4
现在有一个宏任务，又有一个微任务两者同一层级，在微任务里面又有一个宏任务和一个微任务，请问执行顺序是什么,为什么？

本文向大家介绍现在有一个宏任务，又有一个微任务两者同一层级，在微任务里面又有一个宏任务和一个微任务，请问执行顺序是什么,为什么？相关面试题，主要包含被问及现在有一个宏任务，又有一个微任务两者同一层级，在微任务里面又有一个宏任务和一个微任务，请问执行顺序是什么,为什么？时的应答技巧和注意事项，需要的朋友参考一下宏任务——》微任务中的宏任务——》微任务中的微任务——》微任务宏任务执行完成会去检测微
在同步方法中运行任务。运行（）而不等待（）有什么含义？

我有一个旧式代码计时器，每2秒运行一次长时间的数据库更新查询，类似这样假设我们不需要DB更新结果，那么在上面的代码中不等待任务完成会有什么影响吗？在我的理解中，当我们称之为任务时。Run（）从线程池中获取新的/可用的线程，任务在此线程中运行。因为我们称之为任务。从sync方法运行（）时，我们不会记住当前的同步上下文，并在任务完成时恢复它，就像等待任务一样。在异步方法中运行（）。因此，我的另一个
运行多个JVM

问题内容：如何在一台机器上运行多个JVM？您如何在其他JVM中调用方法？问题答案：如何在一台机器上运行多个JVM？只需启动多个进程即可。您如何在其他JVM中调用方法？使用任何类型的RPC框架（RMI，EJB，Web服务等）。
与另一个任务并行运行一个任务

问题内容：我有以下使用类的课程。所以我想做的是，在运行cp1实例处理方法的同时，我要并行运行。但是，我要按顺序cp1，所以我要它运行并完成，如果cp2没有完成或失败，那就很好。如果确实失败，我想加入结果。该示例中未返回任何内容，但我想返回结果。为此，应该使用TaskExecutor吗？还是线程？我只希望cp2与cp1并行运行。或者，如果我添加更多内容，例如说cp3，我希望它也可以与cp1并

相关问答

一个执行器中有多少并发任务以及Spark如何处理一个执行器中任务之间的多线程？Gradle在另一个任务运行时执行任务在Spark中运行任务时出错ExecutorLostFailure 如何使spark并发运行一个作业中的所有任务？在同一JVM上运行多个Spring boot应用程序

相关文章

JVM是否可以同时运行多个程序？在同一终端中一次运行多个并行命令在同一shell golang中运行多个Exec命令我可以在一台PC上运行多个JVM吗？将多个容器放在一个容器中的好处是什么？

相关阅读

JVM 运行时数据区1-pc Struts2的FilterDispatcher和StrutsPrepareAndExecuteFilter有什么不同？拼多多-运营管培生-业务一面-已通过泰隆银行一面（感谢信）-发面经攒好运拼多多消费者服务运营管培一面面经

相关工具

迷你任务 jvm-serializers node-jvm JVM-Sandbox Jelatine JVM

相关文档

DIY 一个实用的 miniLAPP 服务器好用的中文速查表更好的 Java 中英文对照 Databricks Spark 知识库简体中文版 lemp PHP 集成运行环境