问题：

在EMR集群外运行Spark客户端并连接到纱线

宦翔飞

2023-03-14

我有以下情况：

我在一家大公司工作。
我们有一个EMR集群，其中Spark/Hadoop堆栈运行在Yarn上。
我可以SSH到集群的主节点，从那里我可以创建Spark shell或spark-submit作业到Spark集群，没有任何问题。
但是，我希望在我公司的服务器上运行Spark client，因为我们所有的代码库都位于那里，因此我有能力在该服务器上进行主动开发，因为我可以git克隆并推送到位于我公司服务器上的存储库。我不想将所有的公司代码转移到AWS的主节点来进行主动开发。
那么，如何修改Spark设置以使用AWS的纱线作为资源管理器？
我尝试将Spark installation（在/user/lib/Spark中）和Hadoop_conf_dir（在/etc/hadoop/conf中）从EMR集群的主节点复制到我公司的服务器上，但是Spark无法识别Yarn。

谢了。

编辑：在主题行和正文中将“驱动程序”改为“客户端”。

共有1个答案

闻人鸿飞

2023-03-14

这在独立模式下是可能的，但在纱线模式下不行。

当spark在纱线模式下运行时，它无法控制执行者、AM和司机将坐在哪里。

Yarn检查每个任务节点上的内存使用情况和数据可用性，并在计算理想的地方旋转这些组件。

null

类似资料：

如何配置连接到AWS EMR spark集群的Java客户端

我试图编写一个简单的spark应用程序，当我在本地运行它时，它可以将主程序设置为
Spark-submit/spark-shell>纱-客户端和纱-集群模式之间的区别

有两种部署模式可用于在YARN上启动Spark应用程序。在yarn-cluster模式下，Spark驱动程序在集群上由YARN管理的应用程序主进程中运行，客户端可以在启动应用程序后离开。在yarn-client模式下，驱动程序在客户端进程中运行，而应用程序主进程仅用于向YARN请求资源。在此，我只能理解的区别是哪个地方的驱动程序在运行，但我无法理解哪个运行得更快。莫尔沃弗：在运行Spark-s
Qpid客户端连接工厂连接到ArtemisMQ集群

我正在尝试使用Apache Camel和Qpid JMS客户端连接到在两个不同节点（VM）中运行的ActiveMQ Artemis主动-主动集群。我正在使用ActiveMQ Artemis 2.17.0。我正在试图找出我的组织的远程URI配置应该是什么。阿帕奇。qpid。jms。JmsConnectionFactory实例。使用<代码>ampq://host1:5672,ampq://host2
FlinkSQL客户端连接到安全的kafka集群

我想在由安全kafka集群的kafka主题支持的Flink SQL表上执行一个查询。我能够以编程方式执行查询，但无法通过Flink SQL客户端执行。我不知道如何通过Flink SQL客户端传递JAAS配置（）和其他系统属性。 FlinkSQL以编程方式查询这很好。通过SQL客户端Flink SQL查询运行此命令将导致以下错误。中没有任何内容，除了以下注释 SQL客户端运行命令 Flink
从EMR spark连接到EMR presto-连接失败

我遇到了从一个火花运行的AWS EMR集群连接到另一个立即运行的AWS EMR集群的问题。用python编写的代码是：通过aws
Apache Spark+Ignite集群瘦客户端

我正在尝试使用apache-spark读取和写入Ignite集群，我可以使用JDBC瘦客户机，但不是本机方法，正如几个spark+Ignite示例中提到的那样。现在，所有的spark+ignite示例都启动了一个本地ignite集群，但我希望我的代码作为客户端连接到已经存在的集群。完整代码：-（sparkDSLExample）函数无法使用thin连接ignite远程群集示例-default.

在EMR集群外运行Spark客户端并连接到纱线

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档