问题：

是否可以在火花中并行地在单个数据帧上运行多个聚合作业？

方夜洛

2023-03-14

有没有办法在单个RDD上并行运行多个独立的聚合作业？首选是Python，然后是Scala和Java。

按优先顺序排列的行动过程是-

在纱线上使用集群模式，提交不同的罐。这可能吗？如果可能，那么pyspark中是否可能？

使用Kafka-在通过kafka流式传输的数据帧上运行不同的火花提交。

我是Spark的新手，我的经验范围是在ETL上运行Spark on Yarn以串行方式进行多个聚合。我在想是否有可能并行运行这些聚合，因为它们大多是独立的。

共有1个答案

郏景澄

2023-03-14

考虑一下你的广泛问题，这里有一个广泛的答案：

是的，可以在单个数据帧上并行运行多个聚合作业。

至于其余的，似乎不清楚你在问什么。

类似资料：

火花：多个火花-并行提交

一些脚本在工作时什么也不做，当我手动运行它们时，其中一个失败了，出现了以下消息：错误SparkUI：未能绑定SparkUI java.net.bindexception：地址已在使用：服务“SparkUI”在重试16次后失败！所以我想知道是否有一种特定的方法来并行运行脚本？
在Spark数据帧行上并行操作

环境：Scala、spark、结构化流媒体、Kafka 我有一个来自Kafka流的DF，具有以下模式 DF: 我希望使用spark并行处理每一行，并使用我需要从值列中提取值到它自己的数据框中进行处理。我有困难与Dataframe通用行对象... 是否有办法将每个执行器中的单行转换为自己的Dataframe（使用固定模式？）在固定的地点写字？有没有更好的方法来解决我的问题？编辑澄清： DF im
火花脂肪罐在纱线上运行多个版本

然而，我不知道我是否真的需要一个插件，如果需要，是哪一个，以及如何去做它。我尝试使用'build/mvn'和'build/sbt'直接编译github源代码，但是'spark-assembly2.11-2.0.2.jar'文件只有283字节。我的目标是使用较新版本的fat jar运行pyspark shell，其方式与这里提到的类似。
并行高效地运行多个作业

问题内容：作业系统：Cent-OS 我有一些作业（或脚本）要运行。每个工作需要3-5分钟。我有。我可以并行使用。请建议一些脚本或工具通过并行运行40个Jobs来处理30,000个Job。我做了什么：我创建了40个不同的文件夹，并通过为每个目录创建一个Shell脚本来并行执行作业。我想知道下一次处理此类工作的更好方法。问题答案：正如Mark Setchell所说：GNU并行。如果您坚持
Python：合并多个数据帧

我有不同的数据帧，需要根据日期列将它们合并在一起。如果我只有两个数据帧，我可以使用，要使用三个数据帧，我可以使用，但是使用多个数据帧会变得非常复杂和不可读。所有数据帧都有一个公共列-，但它们的行数和列数都不相同，我只需要其中每个日期对每个数据帧都是公共的行。所以，我试图编写一个递归函数，返回一个包含所有数据的数据帧，但它不起作用。那么我应该如何合并多个数据帧呢？我尝试了不同的方法，得到了一些
在PySpark中合并两个数据帧

我有两个数据帧，DF1和DF2，DF1是存储来自DF2的任何附加信息的主机。假设DF1是以下格式， DF2包含DF1中已经存在的2个条目和两个新条目。(itemId和item被视为一个组，可以被视为连接的键) 我需要合并两个数据框，以便增加现有项目计数并插入新项目。结果应该是这样的：我有一种方法可以做到这一点，但不确定这种方法是否有效或正确

是否可以在火花中并行地在单个数据帧上运行多个聚合作业？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档