问题：

Spark-java多线程与运行单个spark作业

齐胜涝

2023-03-14

-第一种方法

所有的查询都可以存储在一个配置单元表中，我可以编写一个Spark驱动程序来一次读取所有查询，并使用java多线程并行运行所有查询（与HiveContext一起

优点：易于维护
缺点：可能会占用所有资源，并且对每个查询进行性能优化可能会很困难。

使用oozie spark操作单独运行每个查询

优点：可以在查询级别进行优化
缺点：难以维护。

我找不到任何关于第一种方法的文档，说明Spark如何在第一种方法中内部处理查询。从性能的角度来看，哪种方法更好？

共有1个答案

晋安国

2023-03-14

因为您的要求是与条件并行运行配置单元查询

有的可以并行运行，有的可以顺序运行

这种工作流最好由Apache Oozie所在的DAG处理器来处理。这种方法将比通过代码管理查询更清晰，也就是说，您将构建自己的DAG处理器，而不是使用Oozie提供的处理器。

类似资料：

如何并行运行多个Spark作业？

一个spark有一个oracle查询。所以我必须并行运行多个作业，以便所有查询都将同时激发。如何并行运行多个作业？
Spark 运行模式与作业提交

一、作业提交 1.1 spark-submit Spark 所有模式均使用 spark-submit 命令提交作业，其格式如下： ./bin/spark-submit \ --class <main-class> \ # 应用程序主入口类 --master <master-url> \ # 集群的 Master Url --deploy-mode <deplo
使用spark submit运行spark作业时的

我试图运行火花作业，基本上加载数据在卡桑德拉表。但它也产生了以下错误。
spark正在单个执行器上运行具有多个分区的作业

我有一个Spark 2.1.1作业，正在Mesos集群中运行。Spark UI显示32个活动执行器和RDD。getNumPartitions显示28个分区。但只有一个（随机）执行者在做任何工作，所有其他执行者都标记为已完成。我向执行器代码（stdout）添加了调试语句，只有一个执行器显示这些语句。整个管道的结构如下：获取ID列表- 这些是Spark二进制文件的配置设置：--drive-内存32g-
如何使用单个Spark上下文在Apache Spark中运行并发作业（动作）

问题内容：它说，在Apache Spark文档中，“ 在每个Spark应用程序中，如果多个“作业”（Spark操作）是由不同的线程提交的，则它们可以同时运行 ”。有人可以为以下示例代码解释如何实现此并发吗？这两个作业是独立的，必须同时运行。谢谢。问题答案：尝试这样的事情：
按键Spark写入多个输出-一个Spark作业

如何在单个作业中使用Spark根据密钥写入多个输出。相关：按键写入多个输出扩展Hadoop，一个MapRe员作业例如。将确保为而将是编辑：我最近添加了一个新的答案，包括完整的导入，皮条客和压缩编解码器，请参阅https://stackoverflow.com/a/46118044/1586965，这可能是有帮助的，除了早期的答案。

Spark-java多线程与运行单个spark作业

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档