当前位置: 首页 > 知识库问答 >
问题:

通过SparkyR连接到另一个Spark群集时,我是否需要本地版本的Spark?

邬友樵
2023-03-14

我有一个安装了Rstudio的生产R群集。用户在R服务器上进行负载平衡,并在那里编写代码。我还有一个单独的Spark群集,它有4个节点。使用SparkyR,我可以通过以下方式轻松连接到spark群集:

sc <- sparklyr::spark_connect("spark://<my cluster>:7077")

唯一我注意到的是,当我这样做时,R正式服上有一些Spark应用程序的使用。我相信这会导致一些问题。我在R生产服务器和Spark集群上都安装了Spark,位于/var/lib/Spark的相同SPARK_HOME位置。

我想完全避免在我的R服务器上使用Spark,这样那里就没有与Spark相关的用法。如何使用parklyr做到这一点?

共有1个答案

邓阳嘉
2023-03-14

是的,您确实需要本地Spark安装才能提交Spark应用程序。其余取决于模式:

  • 在客户端模式下,驱动程序将在提交应用程序的同一节点上运行
 类似资料:
  • 我试图在本地mac中运行以下代码,其中运行有主从集群的spark集群 但是,在主控制台和

  • 我可以确认使用spark shell连接到仪表盘,例如。 作品 但是 没有并给出错误

  • 我目前正在做一个小项目,我需要将kafka集群连接到mongodb,以便将发布到kafka主题的消息存储在mongodb数据库中。我目前有一个本地kafka集群,一个sping引导生产者向一个主题发布消息,一个spinger引导消费者在本地使用这些消息。我也在本地安装了mongob指南针……我一直在看教程,我发现我必须使用某种接收器连接器(mongob连接器)来做我想做的事情,但大多数示例都是基于

  • 我试图运行一个连接到本地独立spark集群的java应用程序。我使用start-all.sh以默认配置启动集群。当我转到集群的web页面时,它被启动为OK。我可以用SparkR连接到这个集群,但是当我使用相同的主URL从Java内部连接时,我会得到一条错误消息。 下面是Spark日志中的输出:

  • 我有一个在kubernetes集群(在AWS EKS上)上运行的mongo db副本集,比如集群-1。这在具有cidr的VPC-1中运行192.174.0.0/16. 我在一个单独的VPC中有另一个集群,比如VPC-2,在那里我将在mongo集群之上运行一些应用程序。该VPC cidr范围为192.176.0.0/16。所有VPC对等和安全组入口/出口规则都正常工作,我能够跨两个VPC ping集

  • 可以任何一个请让我知道如何提交火花作业从本地和连接到卡桑德拉集群。 目前,我在通过putty登录到Cassandra节点并提交下面的dse-spark-submit job命令后提交了Spark作业。