当前位置: 首页 > 知识库问答 >
问题:

在多用户环境中对静态数据集并行运行多个spark查询

柯奕
2023-03-14

使用spark或任何其他大数据框架是否有更有效的方法来实现这一点?目前,我使用的是sparkSQL,数据存储在拼花格式(200GB)中

共有1个答案

宇文金鑫
2023-03-14

我假设您的意思是不同的用户提交他们自己的程序或spark-shell活动,而不是同一应用程序本身的并行性。

因此,公平的调度器池或火花动态资源分配将是最好的选择。所有内容可在https://spark.apache.org/docs/latest/job-scheduling.html中找到

这一领域有点难以理解,因为有以下概念:

 类似资料:
  • 我有一个Spark2.1工作,在这里我维护多个数据集对象/RDD,它们代表我们底层Hive/HDFS数据存储上的不同查询。我注意到,如果我简单地迭代数据集列表,它们一次执行一个。每个单独的查询都是并行操作的,但是我觉得我们没有通过并行运行不同的数据集来最大化我们的资源。

  • Serverless 与微服务在一点上很吸引人,你可以采用不同的语言来运行你的代码,不同的服务之间可以使用不同的语言。除了,在不同的 Serverless 服务里,采用不同的语言来开发。我们也可以在一个 Serverless 服务里,使用不同的语言来开发服务。 Serverless 多个语言运行环境 这次我们要创建的 Serverless 服务,其实现步骤相当的简单: 使用 serverless

  • 一个spark有一个oracle查询。所以我必须并行运行多个作业,以便所有查询都将同时激发。 如何并行运行多个作业?

  • 问题内容: 有一个简单的愚蠢问题困扰着我,并在我脑海中提出了几个论点。我想排除所有对以下问题的怀疑。 假设有五个线程同时执行一个调用。 线程1调用。 当线程1位于第1节中时,线程2调用。 那么线程1将会发生什么?会进入睡眠状态吗? 当线程1获得机会时,它将从暂停的第1节继续执行吗? 在所有五个线程之间共享一个相同的线程时,该如何处理? 是否有可能互换多个线程发送的消息? 问题答案: 汉斯·帕桑(H

  • 问题内容: 有什么方法可以检查某个方法是静态调用还是在实例化对象上调用? 问题答案: 请尝试以下操作: 资料来源:通过Google的seancoates.com

  • 我刚来盖茨比 查询本身非常适合在构建时获取数据,并将其作为道具传递给呈现每个菜单项的菜单组件。但是,在运行时,我希望再次从数据库中提取数据,并让它更新数据,例如,如果有价格变化,等等。 我知道我可以重建整个项目,但我希望这是一个后备方案。 如何让查询将数据发送到Menu组件,然后[再次发送数据?]当DB调用完成时。 当前未按预期工作的代码: index.jsx