我正在使用spark submit执行以下命令:
spark submit script\u测试。py—主纱线—部署模式群集spark submit script\u测试。py—主纱线簇—部署模式簇
这工作做得很好。我可以在Spark History Server UI下看到它。但是,我无法在RessourceManager UI(纱线)下看到它。
我感觉我的作业没有发送到集群,但它只在一个节点上运行。但是,我认为使用Spark submit命令的方式没有任何错误。
我错了吗?我如何检查它?还是将作业发送到纱线集群?
当您使用主纱线时,意味着在某些地方您已经用主机、端口等配置了纱线站点。可能您使用spark submit的机器不知道纱线大师在哪里。
您可以查看hadoop/Thread/spark配置文件,特别是Thread站点。xml来检查资源管理器的主机是否正确。
这些文件位于不同的文件夹中,具体取决于您使用的Hadoop发行版。在HDP中,我猜它们在/etc/hadoop/conf
中
希望有帮助。
我正在AWS EMR集群上使用pyspark3内核运行Jupyterhub。正如我们可能知道的那样,EMR上的Jupyterhub pyspark3使用Livy会话在AWS EMR YARN调度程序上运行工作负载。我的问题是关于火花的配置:执行器内存/内核、驱动程序内存/内核等。 配置中已经有默认配置。Jupyter的json文件: 我们可以改写此配置使用spackMagic: 火花默认值中也有配
我正面临一个问题,当提交一个火花作业罐子在纱。当我用-master yarn-client提交它时,它工作得很好,并给出了我预期的结果 命令如下所示; ./spark-submit--类main.mainclass--主纱--客户端--驱动程序--内存4G--执行器--内存4G--num-执行器4--执行器-核心2 job.jar其他--选项
我们正在hadoop 2.6集群上运行Flink 1.5.0纱线会话/料仓/纱线会话。但是,这不会启动任何TaskManager。日志显示Flink JobManager以领导者id 000000开始。。。在JobManager web界面中也没有任务管理器。当我们向这个jobManager提交flink作业时,一些TaskManManager会在执行作业的web界面上生成。这是Flink1.5.
作为Apache Flink的新手,以及流处理框架的一般情况下,我有几个关于它的问题,特别是关于并行性的问题。 首先,这是我的代码: 当我想在集群上运行它时,我运行以下命令: 2.为什么Flink没有为这一步使用所有可能的线程? 我注意到源、窗口和接收器由不同的从服务器处理,但我仍然希望在集群上并行处理。 我在这篇文章中读到:https://stackoverflow.com/a/32329010
我试图通过以下命令向CDH纱线集群提交spark作业 我试过几种组合,但都不起作用。。。现在,我的本地/root以及HDFS/user/root/lib中都有所有poi JAR,因此我尝试了以下方法 如何将JAR分发到所有集群节点?因为上面这些都不起作用,作业仍然无法引用该类,因为我一直收到相同的错误: 同样的命令也适用于“--master本地”,但没有指定--jar,因为我已经将我的jar复制到