-第一种方法
所有的查询都可以存储在一个配置单元表中,我可以编写一个Spark驱动程序来一次读取所有查询,并使用java多线程并行运行所有查询(与HiveContext一起
使用oozie spark操作单独运行每个查询
我找不到任何关于第一种方法的文档,说明Spark如何在第一种方法中内部处理查询。从性能的角度来看,哪种方法更好?
因为您的要求是与条件并行运行配置单元查询
有的可以并行运行,有的可以顺序运行
这种工作流最好由Apache Oozie所在的DAG处理器来处理。这种方法将比通过代码管理查询更清晰,也就是说,您将构建自己的DAG处理器,而不是使用Oozie提供的处理器。
一个spark有一个oracle查询。所以我必须并行运行多个作业,以便所有查询都将同时激发。 如何并行运行多个作业?
一、作业提交 1.1 spark-submit Spark 所有模式均使用 spark-submit 命令提交作业,其格式如下: ./bin/spark-submit \ --class <main-class> \ # 应用程序主入口类 --master <master-url> \ # 集群的 Master Url --deploy-mode <deplo
我试图运行火花作业,基本上加载数据在卡桑德拉表。但它也产生了以下错误。
我有一个Spark 2.1.1作业,正在Mesos集群中运行。Spark UI显示32个活动执行器和RDD。getNumPartitions显示28个分区。但只有一个(随机)执行者在做任何工作,所有其他执行者都标记为已完成。我向执行器代码(stdout)添加了调试语句,只有一个执行器显示这些语句。整个管道的结构如下:获取ID列表- 这些是Spark二进制文件的配置设置:--drive-内存32g-
问题内容: 它说,在Apache Spark文档中,“ 在每个Spark应用程序中,如果多个“作业”(Spark操作)是由不同的线程提交的,则它们可以同时运行 ”。有人可以为以下示例代码解释如何实现此并发吗? 这两个作业是独立的,必须同时运行。 谢谢。 问题答案: 尝试这样的事情:
如何在单个作业中使用Spark根据密钥写入多个输出。 相关:按键写入多个输出扩展Hadoop,一个MapRe员作业 例如。 将确保为 而将是 编辑:我最近添加了一个新的答案,包括完整的导入,皮条客和压缩编解码器,请参阅https://stackoverflow.com/a/46118044/1586965,这可能是有帮助的,除了早期的答案。