如何确定spark独立群集模式上的工作线程数?在独立群集模式下添加工作线程时,持续时间将缩短。
例如,对于我的输入数据3.5 G,WordCount需要3.8分钟。但是,在我添加了一个内存为4 G的工作器后,需要2.6分钟。
增加调谐火花的工人可以吗?我正在考虑这方面的风险。
我的环境设置如下:,
输入数据信息
您可以调整执行器(JVM及其内存的数量)以及任务的数量。如果您正在做的事情可以从并行性中受益,那么您可以通过配置来增加更多执行者,并增加任务的数量(通过在代码中调用分区/合并等)。
当您设置并行性时,请考虑您是否主要从事IO或计算等工作。一般来说,Spark推荐适用于每个CPU内核2-3个任务
/usr/local/spark-1.2.1-bin-hadoop2.4/bin/--类com.fst.firststep.aggregator.firststepmessageProcessor--主spark://ec2-xx-xx-xx-xx.compute-1.amazonaws.com:7077--部署模式集群--监督文件:///home/xyz/sparkstreaming-0.0.1
工人出现在图片上。为了运行我的代码,我使用了以下命令:
应用程序不是那么占用内存,有两个连接和写数据集到目录。同样的代码在spark-shell上运行没有任何失败。 寻找群集调优或任何配置设置,这将减少执行器被杀死。
抛出错误 到目前为止,我在Hadoop中只有start-dfs.sh,在Spark中并没有真正配置任何内容。我是否需要使用YARN集群管理器来运行Spark,以便Spark和Hadoop使用相同的集群管理器,从而可以访问HDFS文件? 我尝试按照tutorialspoint https://www.tutorialspoint.com/Hadoop/hadoop_enviornment_setup
我有一个向spark独立单节点集群提交spark作业的maven scala应用程序。提交作业时,Spark应用程序尝试使用spark-cassandra-connector访问Amazon EC2实例上托管的cassandra。连接已建立,但不返回结果。一段时间后连接器断开。如果我在本地模式下运行spark,它工作得很好。我试图创建简单的应用程序,代码如下所示: SparkContext.Sca
> 提交应用程序未设置,然后它将创建 1名16芯工人 使用提交,然后它将创建一个包含15个核心的worker