问题：

如何在yarn客户端模式下提交远程主节点上的spark作业？

敖淮晨

2023-03-14

./spark-submit --class SparkTest --deploy-mode client /home/vm/app.jar

我有我的主人的地址硬编码到我的应用程序在表单

val spark_master = spark://IP:7077

但我得到的只是错误

16/06/06 03:04:34 INFO AppClient$ClientEndpoint: Connecting to master spark://IP:7077...
16/06/06 03:04:34 WARN AppClient$ClientEndpoint: Failed to connect to master IP:7077
java.io.IOException: Failed to connect to /IP:7077
at org.apache.spark.network.client.TransportClientFactory.createClient(TransportClientFactory.java:216)
at org.apache.spark.network.client.TransportClientFactory.createClient(TransportClientFactory.java:167)
at org.apache.spark.rpc.netty.NettyRpcEnv.createClient(NettyRpcEnv.scala:200)
at org.apache.spark.rpc.netty.Outbox$$anon$1.call(Outbox.scala:187)
at org.apache.spark.rpc.netty.Outbox$$anon$1.call(Outbox.scala:183)
at java.util.concurrent.FutureTask.run(FutureTask.java:266)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
at java.lang.Thread.run(Thread.java:745)
Caused by: java.net.ConnectException: Connection refused: /IP:7077

或者如果我使用

./spark-submit --class SparkTest --master yarn --deploy-mode client /home/vm/test.jar

Exception in thread "main" java.lang.Exception: When running with master 'yarn' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in the environment.
at org.apache.spark.deploy.SparkSubmitArguments.validateSubmitArguments(SparkSubmitArguments.scala:251)
at org.apache.spark.deploy.SparkSubmitArguments.validateArguments(SparkSubmitArguments.scala:228)
at org.apache.spark.deploy.SparkSubmitArguments.<init>(SparkSubmitArguments.scala:109)
at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:114)
at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

共有1个答案

姬安志

2023-03-14

首先，如果要从应用程序代码中设置conf.setmaster(...)，则它具有最高优先级（高于--master参数）。如果要在yarn客户端模式下运行，请不要在应用程序代码中使用master_ip:7077。您应该按照以下方式向驱动程序提供hadoop客户端配置文件。

您应该将环境变量HADOOP_CONF_DIR或YARN_CONF_DIR设置为指向包含客户端配置的目录。

http://spark.apache.org/docs/latest/running-on-yarn.html

类似资料：

从远程客户端在Yarn集群上提交Spark作业

我被困在：在我得到这个之前：当我签出应用程序跟踪页面时，我在stderr上得到以下信息：我对这一切都很陌生，也许我的推理有缺陷，任何投入或建议都会有所帮助。
SPARK_EXECUTOR_INSTANCES不在SPARK SHELL、YARN客户端模式下工作

我是Spark的新手。 spark_executor_instances=3 spark_executor_cores=1 spark_driver_memory=2g 我还通过确认了它只有一个执行器，并且只有主节点()上的执行器。 INFO yarn.client：启动Spark应用程序的命令master:List($java_home/bin/java,-server,-xmx2048m,-d
如何在Azure HDInsight上向Hadoop YARN提交Apache Spark作业

也许一定有一个更合适的方式来提交火花工作。有人知道如何将Apache Spark作业远程提交到hDinsight吗？多谢！
如何在独立和客户端模式下终止作业？

我使用spark-submit来运行一个作业，它有一些异常，它被阻塞了，所以我尝试使用来停止进程。 > 我想知道这个作业是否还在集群上运行？
Spark 运行模式与作业提交

一、作业提交 1.1 spark-submit Spark 所有模式均使用 spark-submit 命令提交作业，其格式如下： ./bin/spark-submit \ --class <main-class> \ # 应用程序主入口类 --master <master-url> \ # 集群的 Master Url --deploy-mode <deplo
在Spark的客户端模式下，驱动程序需要对远程执行程序进行网络访问？

当在客户机模式下使用spark时（例如，yarn-client)，运行驱动程序的本地机器是否直接与运行远程执行器的集群工作节点通信？如果是，是否意味着如果集群的配置方式是工作节点在集群之外不可见，那么客户机模式将无法工作，并且必须使用集群模式？谢了！

如何在yarn客户端模式下提交远程主节点上的spark作业？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档