当前位置: 首页 > 知识库问答 >
问题:

在EMR集群外运行Spark客户端并连接到纱线

宦翔飞
2023-03-14

我有以下情况:

  1. 我在一家大公司工作。
  2. 我们有一个EMR集群,其中Spark/Hadoop堆栈运行在Yarn上。
  3. 我可以SSH到集群的主节点,从那里我可以创建Spark shell或spark-submit作业到Spark集群,没有任何问题。
  4. 但是,我希望在我公司的服务器上运行Spark client,因为我们所有的代码库都位于那里,因此我有能力在该服务器上进行主动开发,因为我可以git克隆并推送到位于我公司服务器上的存储库。我不想将所有的公司代码转移到AWS的主节点来进行主动开发。
  5. 那么,如何修改Spark设置以使用AWS的纱线作为资源管理器?
  6. 我尝试将Spark installation(在/user/lib/Spark中)和Hadoop_conf_dir(在/etc/hadoop/conf中)从EMR集群的主节点复制到我公司的服务器上,但是Spark无法识别Yarn。

谢了。

编辑:在主题行和正文中将“驱动程序”改为“客户端”。

共有1个答案

闻人鸿飞
2023-03-14

这在独立模式下是可能的,但在纱线模式下不行。

当spark在纱线模式下运行时,它无法控制执行者、AM和司机将坐在哪里。

Yarn检查每个任务节点上的内存使用情况和数据可用性,并在计算理想的地方旋转这些组件

    null
 类似资料:
  • 我试图编写一个简单的spark应用程序,当我在本地运行它时,它可以将主程序设置为

  • 有两种部署模式可用于在YARN上启动Spark应用程序。在yarn-cluster模式下,Spark驱动程序在集群上由YARN管理的应用程序主进程中运行,客户端可以在启动应用程序后离开。在yarn-client模式下,驱动程序在客户端进程中运行,而应用程序主进程仅用于向YARN请求资源。 在此,我只能理解的区别是哪个地方的驱动程序在运行,但我无法理解哪个运行得更快。莫尔沃弗: 在运行Spark-s

  • 我正在尝试使用Apache Camel和Qpid JMS客户端连接到在两个不同节点(VM)中运行的ActiveMQ Artemis主动-主动集群。我正在使用ActiveMQ Artemis 2.17.0。 我正在试图找出我的组织的远程URI配置应该是什么。阿帕奇。qpid。jms。JmsConnectionFactory实例。使用<代码>ampq://host1:5672,ampq://host2

  • 我想在由安全kafka集群的kafka主题支持的Flink SQL表上执行一个查询。我能够以编程方式执行查询,但无法通过Flink SQL客户端执行。我不知道如何通过Flink SQL客户端传递JAAS配置()和其他系统属性。 FlinkSQL以编程方式查询 这很好。 通过SQL客户端Flink SQL查询 运行此命令将导致以下错误。 中没有任何内容,除了以下注释 SQL客户端运行命令 Flink

  • 我遇到了从一个火花运行的AWS EMR集群连接到另一个立即运行的AWS EMR集群的问题。 用python编写的代码是: 通过aws

  • 我正在尝试使用apache-spark读取和写入Ignite集群,我可以使用JDBC瘦客户机,但不是本机方法,正如几个spark+Ignite示例中提到的那样。 现在,所有的spark+ignite示例都启动了一个本地ignite集群,但我希望我的代码作为客户端连接到已经存在的集群。 完整代码:-(sparkDSLExample)函数无法使用thin连接ignite远程群集 示例-default.