当前位置: 首页 > 知识库问答 >
问题:

关于在集群(AWS)上运行spark作业的说明

闾丘选
2023-03-14

我有一个在AWS EC2机器上运行的HortonWorks集群,我想在上面运行一个使用spark streaming的spark工作,该工作将吞下tweet concernings《权力的游戏》。在尝试在集群上运行它之前,我确实在本地运行了它。代码正在工作,如下所示:

import org.apache.spark.streaming.{StreamingContext, Seconds}
import org.apache.spark.streaming.twitter._
import org.apache.spark.{SparkConf, SparkContext}

object Twitter_Stream extends App {

  val consumerKey = "hidden"
  val consumerSecret = "hidden"
  val accessToken = "hidden"
  val accessTokenSecret = "hidden"

  val sparkConf = new SparkConf().setAppName("GotTweets").setMaster("local[2]")

  val ssc = new StreamingContext(sparkConf, Seconds(1))

  val myStream = TwitterUtils.createStream(ssc, None, Array("#GoT","#WinterIsHere","#GameOfThrones"))

  val rddTweets = myStream.foreachRDD(rdd =>
  {
    rdd.take(10).foreach(println)
  })

  ssc.start()
  ssc.awaitTermination()
}

我的问题更确切地说是关于这段特定代码行:

val sparkConf = new SparkConf().setAppName("GotTweets").setMaster("local[2]")

17/07/24 11:53:42 INFO AppClient$ClientEndpoint:连接到主Spark://IP-Adress:7077...17/07/24 11:53:44警告AppClient$ClientEndpoint:未能连接到主IP-Adress:7077 java.io.ioException:未能连接到Spark://IP-Adress:7077 at org.apache.spark.network.client.transportClientFactory.createClient(TransportClientFactory.java:216)at org.apache.spark.network.client.transportClientFactory.createClient(TransportClientFactory.java:167)at.netty.outbox$$anon$1.在org.apache.spark.rpc.netty.outbox$$anon$1调用(Outbox.scala:187)在java.util.concurrent.futuretask.run调用(Outbox.scala:183)在java.util.concurrent.threadpoolexecutor.runworker(threadpoolexecutor.java:1142)在java.util.concurrent.threadpoolexecutor.worker.run

共有1个答案

幸弘光
2023-03-14

要使用yarn运行spark应用程序,应该使用spark-submitusing--master yarn。不需要在scala源代码中使用setmaster

 类似资料:
  • 我已经在我的Windows7机器上设置了一个本地spark集群(一个主节点和辅助节点)。我已经创建了一个简单的scala脚本,我用sbt构建了这个脚本,并尝试用Spark-Submit运行这个脚本。请参阅以下资源 Scala代码: 现在,我用sbt构建并打包scala代码,并将其打包到一个JAR中。我的build.sbt文件如下所示 它创建一个jar,我使用spark submit命令提交它,如下

  • 在k8s集群中。如何配置zeppelin在现有spark集群中运行spark作业,而不是旋转一个新的Pod? 我有一个k8s集群正在运行,我想在其中运行与齐柏林飞艇的火花。 Spark使用官方的Bitnami/Spark helm chart(v3.0.0)进行部署。我有一个主舱和两个工人舱运转良好,一切都很好。 短伪DockerFile: 我稍微修改了。(Image,imagePullSecre

  • 正如标题所预期的,我在向docker上运行的spark集群提交spark作业时遇到了一些问题。 我在scala中写了一个非常简单的火花作业,订阅一个kafka服务器,安排一些数据,并将这些数据存储在一个elastichsearch数据库中。 如果我在我的开发环境(Windows/IntelliJ)中从Ide运行spark作业,那么一切都会完美工作。 然后(我一点也不喜欢java),我按照以下说明添

  • 所以我现在花了几个小时试图解决这个问题,并希望得到任何帮助。

  • 我是一名spark/纱线新手,在提交纱线集群上的spark作业时遇到exitCode=13。当spark作业在本地模式下运行时,一切正常。 我使用的命令是: Spark错误日志:

  • 当Quartz群集时,如何查明某个特定作业当前是否在Quartz中运行? “获取正在运行的作业”问题的标准答案是使用,但是根据javadoc的说法,这在集群环境中不起作用。 那有什么诀窍?