当前位置: 首页 > 知识库问答 >
问题:

Spark配置,SPARK_DRIVER_MEMORY、SPARK_EXECUTOR_MEMORY和spark_worker_memory有什么区别?

闾丘正志
2023-03-14

我做了我的工作,阅读了https://spark.apache.org/docs/latest/configuration.html的文档

在spark-folder/conf/spark-env.sh中:

  • spark_driver_memory,主内存(例如,1000M,2G)(默认值:512 Mb)
  • spark_executor_memory,每个工作器的内存(例如,1000M,2G)(默认值:1G)
  • spark_worker_memory,以设置工人要给执行者多少内存(例如1000M,2G)

非常感谢。

共有1个答案

东门佐
2023-03-14

首先,您应该知道1个Worker(可以说1台机器或1个Worker节点)可以启动多个执行器(或多个Worker实例--它们在文档中使用的术语)。

  • spark_worker_memory仅在独立部署模式下使用
  • spark_executor_memory在纱线部署模式下使用

在独立模式下,将spark_worker_memory设置为一台机器(这台机器上的所有执行程序)上运行spark应用程序所能使用的内存总量。

    null
 类似资料:
  • Spark shell:它基本上打开了scala spark sql:它似乎直接连接到hive元存储,我们可以用类似于hive的方式编写查询。并查询配置单元中的现有数据 我想知道这两者的区别。。在spark sql中处理任何查询是否与在spark shell中相同?我的意思是,我们可以在spark sql中利用spark的性能优势吗? Spark 1.5.2在这里。

  • 我试图优化两个spark dataframes之间的联接查询,让我们将它们称为df1、df2(在公共列“saleid”上联接)。df1非常小(5M),所以我在spark集群的节点中广播它。df2非常大(200米行),所以我尝试通过“saleid”对它进行桶/重新分区。 例如: 分区: 水桶: 我不知道哪一个是正确的技术使用。谢谢。

  • 我只知道版本差异,但不知道功能或其他。i、 e Sparksession具有内部sparkcontext和conf。

  • Apache Spark中的join和cogroup有什么区别?每个方法的用例是什么?

  • 考虑一个MySQL数据库,其中包含一个电子商务网站的1000万个产品。 我正在尝试建立一个分类模块来对产品进行分类。我正在使用Apache Sqoop将数据从MySQL导入到Hadoop。 我想使用Mahout作为机器学习框架来使用它的一种分类算法,然后我遇到了MLlib提供的Spark 那么这两个框架之间有什么区别? 主要是,每种方法的优点、缺点和局限性是什么?

  • 我在这里浏览了文档:https://spark . Apache . org/docs/latest/API/python/py spark . SQL . html 它说: 重新分区:生成的DataFrame是哈希分区的 对于repartitionByRange:结果DataFrame是范围分区的 而且之前的一个问题也提到了。然而,我仍然不明白它们到底有什么不同,当选择一个而不是另一个时会有什么