当前位置: 首页 > 知识库问答 >
问题:

SPARK独立群集模式下的工作线程数

王旺
2023-03-14

如何确定spark独立群集模式上的工作线程数?在独立群集模式下添加工作线程时,持续时间将缩短。

例如,对于我的输入数据3.5 G,WordCount需要3.8分钟。但是,在我添加了一个内存为4 G的工作器后,需要2.6分钟。

增加调谐火花的工人可以吗?我正在考虑这方面的风险。

我的环境设置如下:,

  • 内存128克,16个CPU,用于9个虚拟机

输入数据信息

  • HDFS中的3.5 G数据文件

共有1个答案

顾池暝
2023-03-14

您可以调整执行器(JVM及其内存的数量)以及任务的数量。如果您正在做的事情可以从并行性中受益,那么您可以通过配置来增加更多执行者,并增加任务的数量(通过在代码中调用分区/合并等)。

当您设置并行性时,请考虑您是否主要从事IO或计算等工作。一般来说,Spark推荐适用于每个CPU内核2-3个任务

 类似资料:
  • /usr/local/spark-1.2.1-bin-hadoop2.4/bin/--类com.fst.firststep.aggregator.firststepmessageProcessor--主spark://ec2-xx-xx-xx-xx.compute-1.amazonaws.com:7077--部署模式集群--监督文件:///home/xyz/sparkstreaming-0.0.1

  • 工人出现在图片上。为了运行我的代码,我使用了以下命令:

  • 应用程序不是那么占用内存,有两个连接和写数据集到目录。同样的代码在spark-shell上运行没有任何失败。 寻找群集调优或任何配置设置,这将减少执行器被杀死。

  • 抛出错误 到目前为止,我在Hadoop中只有start-dfs.sh,在Spark中并没有真正配置任何内容。我是否需要使用YARN集群管理器来运行Spark,以便Spark和Hadoop使用相同的集群管理器,从而可以访问HDFS文件? 我尝试按照tutorialspoint https://www.tutorialspoint.com/Hadoop/hadoop_enviornment_setup

  • 我有一个向spark独立单节点集群提交spark作业的maven scala应用程序。提交作业时,Spark应用程序尝试使用spark-cassandra-connector访问Amazon EC2实例上托管的cassandra。连接已建立,但不返回结果。一段时间后连接器断开。如果我在本地模式下运行spark,它工作得很好。我试图创建简单的应用程序,代码如下所示: SparkContext.Sca

  • > 提交应用程序未设置,然后它将创建 1名16芯工人 使用提交,然后它将创建一个包含15个核心的worker