问题：

从EMR集群主机外部使用spark-submit

阙博容

2023-03-14

我们有一个Hadoop集群，运行在带有Spark 1.6.1的AWS弹性MapReduce(EMR)中。进入集群主机并提交Spark作业没有问题，但我们希望能够从另一个独立的EC2实例提交它们。

另一个“外部”EC2实例设置了安全组，以允许所有TCP流量进出EMR实例主从实例。它有一个直接从Apache网站下载的Spark的二进制安装。

$ /usr/local/spark/bin/spark-submit --master yarn --deploy-mode client --class org.apache.spark.examples.SparkPi /usr/local/spark/lib/spark-examples-1.6.1-hadoop2.6.0.jar 
16/06/22 13:58:52 INFO spark.SparkContext: Running Spark version 1.6.1
16/06/22 13:58:52 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
16/06/22 13:58:52 INFO spark.SecurityManager: Changing view acls to: jungd
16/06/22 13:58:52 INFO spark.SecurityManager: Changing modify acls to: jungd
16/06/22 13:58:52 INFO spark.SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions:     Set(jungd); users with modify permissions: Set(jungd)
16/06/22 13:58:52 INFO util.Utils: Successfully started service 'sparkDriver' on port 34757.
16/06/22 13:58:52 INFO slf4j.Slf4jLogger: Slf4jLogger started
16/06/22 13:58:52 INFO Remoting: Starting remoting
16/06/22 13:58:53 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://sparkDriverActorSystem@172.31.61.189:39241]
16/06/22 13:58:53 INFO util.Utils: Successfully started service 'sparkDriverActorSystem' on port 39241.
16/06/22 13:58:53 INFO spark.SparkEnv: Registering MapOutputTracker
16/06/22 13:58:53 INFO spark.SparkEnv: Registering BlockManagerMaster
16/06/22 13:58:53 INFO storage.DiskBlockManager: Created local directory at /tmp/blockmgr-300d738e-d7e4-4ae9-9cfe-4e257a05d456
16/06/22 13:58:53 INFO storage.MemoryStore: MemoryStore started with capacity 511.1 MB
16/06/22 13:58:53 INFO spark.SparkEnv: Registering OutputCommitCoordinator
16/06/22 13:58:53 INFO server.Server: jetty-8.y.z-SNAPSHOT
16/06/22 13:58:53 INFO server.AbstractConnector: Started SelectChannelConnector@0.0.0.0:4040
16/06/22 13:58:53 INFO util.Utils: Successfully started service 'SparkUI' on port 4040.
16/06/22 13:58:53 INFO ui.SparkUI: Started SparkUI at http://172.31.61.189:4040
16/06/22 13:58:53 INFO spark.HttpFileServer: HTTP File server directory is /tmp/spark-5e332986-ae2a-4bde-9ae4-edb4fac5e1d7/httpd-e475fd1b-c5c8-4f31-9699-be89fff4a69c
16/06/22 13:58:53 INFO spark.HttpServer: Starting HTTP Server
16/06/22 13:58:53 INFO server.Server: jetty-8.y.z-SNAPSHOT
16/06/22 13:58:53 INFO server.AbstractConnector: Started SocketConnector@0.0.0.0:43525
16/06/22 13:58:53 INFO util.Utils: Successfully started service 'HTTP file server' on port 43525.
16/06/22 13:58:53 INFO spark.SparkContext: Added JAR file:/usr/local/spark/lib/spark-examples-1.6.1-hadoop2.6.0.jar at http://172.31.61.189:43525/jars/spark-examples-1.6.1-hadoop2.6.0.jar with timestamp 1466603933454
16/06/22 13:58:53 INFO client.RMProxy: Connecting to ResourceManager at ip-172-31-60-166.ec2.internal/172.31.60.166:8032
16/06/22 13:58:53 INFO yarn.Client: Requesting a new application from cluster with 2 NodeManagers
16/06/22 13:58:53 INFO yarn.Client: Verifying our application has not requested more than the maximum memory capability of the cluster (11520 MB per container)
16/06/22 13:58:53 INFO yarn.Client: Will allocate AM container, with 896 MB memory including 384 MB overhead
16/06/22 13:58:53 INFO yarn.Client: Setting up container launch context for our AM
16/06/22 13:58:53 INFO yarn.Client: Setting up the launch environment for our AM container
16/06/22 13:58:53 INFO yarn.Client: Preparing resources for our AM container
16/06/22 13:58:54 ERROR spark.SparkContext: Error initializing SparkContext.
org.apache.hadoop.security.AccessControlException: Permission denied: user=jungd, access=WRITE, inode="/user/jungd/.sparkStaging/application_1466437015320_0014":hdfs:hadoop:drwxr-xr-x
at         org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.check(FSPermissionChecker.java:319)
at     org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.check(FSPermissionChecker.java:292)
at     org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:213)

我不知道是怎么回事。非常感谢您的任何帮助。

共有1个答案

颜君浩

2023-03-14

从主机以外的机器运行spark-submit需要几件事：

需要在HDFS中创建与提交用户匹配的用户
- 例如，使用色调控制台，或者直接创建/user/name文件夹，并使用主服务器上的Hadoop FS命令行工具设置权限
- 如果在AWS EC2 EMR环境中，计算机、主服务器和从服务器的安全组可以显式地允许来自其他组。
还可能需要在主服务器上创建用户作为Linux帐户。

类似资料：

Spark独立集群-从机未连接到主机

我正试图按照官方文档设置一个Spark独立集群。我的主人在一个运行ubuntu的本地vm上，我也有一个工作人员在同一台机器上运行。它是连接的，我能够在大师的WebUI中看到它的地位。以下是WebUi图像- 我已经在两台机器上的/etc/hosts中添加了主IP地址和从IP地址。我遵循了SPARK+独立集群中给出的所有解决方案：无法从另一台机器启动worker，但它们对我不起作用。我在两台机器
spark独立集群从机无法将从机连接到主机
在无spark UI的AWS EMR中监控spark集群

我正在AWS EMR上运行一个火花集群。如何在不使用spark UI的情况下获得在AWS EMR上运行的作业和执行器的所有细节。我打算用它来监视和优化。
将spark-submit配置到远程AWS EMR集群

我们正在EC2实例上构建一个airflow服务器，该服务器与EMR集群通信以运行spark作业。我们试图提交一个BashOperator DAG，它为一个简单的wordcount应用程序运行spark-submit命令。下面是我们的spark提交命令：我们得到以下错误：线程“main”org.apache.spark.sparkException中的异常：当使用主“yarn”运行时，必须在环境中
在EMR集群外运行Spark客户端并连接到纱线

我有以下情况：我在一家大公司工作。我们有一个EMR集群，其中Spark/Hadoop堆栈运行在Yarn上。我可以SSH到集群的主节点，从那里我可以创建Spark shell或spark-submit作业到Spark集群，没有任何问题。但是，我希望在我公司的服务器上运行Spark client，因为我们所有的代码库都位于那里，因此我有能力在该服务器上进行主动开发，因为我可以git克隆并推送到
Java Spark collect（）JavaDD失败，内存错误（EMR集群）

下面是我的代码：每次尝试运行此代码时，我都会得到Java.lang.OutofMemoryError：Java堆空间。据我所知，Spark正在我的主节点上执行collect（）操作。那么有没有什么方法可以增加内存，使它能够运行程序呢？

从EMR集群主机外部使用spark-submit

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档