问题：

关于在集群(AWS)上运行spark作业的说明

闾丘选

2023-03-14

我有一个在AWS EC2机器上运行的HortonWorks集群，我想在上面运行一个使用spark streaming的spark工作，该工作将吞下tweet concernings《权力的游戏》。在尝试在集群上运行它之前，我确实在本地运行了它。代码正在工作，如下所示：

import org.apache.spark.streaming.{StreamingContext, Seconds}
import org.apache.spark.streaming.twitter._
import org.apache.spark.{SparkConf, SparkContext}

object Twitter_Stream extends App {

  val consumerKey = "hidden"
  val consumerSecret = "hidden"
  val accessToken = "hidden"
  val accessTokenSecret = "hidden"

  val sparkConf = new SparkConf().setAppName("GotTweets").setMaster("local[2]")

  val ssc = new StreamingContext(sparkConf, Seconds(1))

  val myStream = TwitterUtils.createStream(ssc, None, Array("#GoT","#WinterIsHere","#GameOfThrones"))

  val rddTweets = myStream.foreachRDD(rdd =>
  {
    rdd.take(10).foreach(println)
  })

  ssc.start()
  ssc.awaitTermination()
}

我的问题更确切地说是关于这段特定代码行：

val sparkConf = new SparkConf().setAppName("GotTweets").setMaster("local[2]")

17/07/24 11:53:42 INFO AppClient$ClientEndpoint:连接到主Spark://IP-Adress:7077...17/07/24 11:53:44警告AppClient$ClientEndpoint：未能连接到主IP-Adress：7077 java.io.ioException：未能连接到Spark：//IP-Adress：7077 at org.apache.spark.network.client.transportClientFactory.createClient（TransportClientFactory.java:216)at org.apache.spark.network.client.transportClientFactory.createClient（TransportClientFactory.java:167)at.netty.outbox$$anon$1.在org.apache.spark.rpc.netty.outbox$$anon$1调用(Outbox.scala:187)在java.util.concurrent.futuretask.run调用(Outbox.scala:183)在java.util.concurrent.threadpoolexecutor.runworker(threadpoolexecutor.java:1142)在java.util.concurrent.threadpoolexecutor.worker.run

共有1个答案

幸弘光

2023-03-14

要使用yarn运行spark应用程序，应该使用spark-submitusing--master yarn。不需要在scala源代码中使用setmaster。

类似资料：

在本地群集上运行spark作业将无限运行

我已经在我的Windows7机器上设置了一个本地spark集群（一个主节点和辅助节点）。我已经创建了一个简单的scala脚本，我用sbt构建了这个脚本，并尝试用Spark-Submit运行这个脚本。请参阅以下资源 Scala代码：现在，我用sbt构建并打包scala代码，并将其打包到一个JAR中。我的build.sbt文件如下所示它创建一个jar，我使用spark submit命令提交它，如下
Zeppelin+Spark+Kubernetes:让Zeppelin作业在现有Spark集群上运行

在k8s集群中。如何配置zeppelin在现有spark集群中运行spark作业，而不是旋转一个新的Pod？我有一个k8s集群正在运行，我想在其中运行与齐柏林飞艇的火花。 Spark使用官方的Bitnami/Spark helm chart(v3.0.0)进行部署。我有一个主舱和两个工人舱运转良好，一切都很好。短伪DockerFile：我稍微修改了。（Image,imagePullSecre
无法在docker上的spark群集上提交spark作业

正如标题所预期的，我在向docker上运行的spark集群提交spark作业时遇到了一些问题。我在scala中写了一个非常简单的火花作业，订阅一个kafka服务器，安排一些数据，并将这些数据存储在一个elastichsearch数据库中。如果我在我的开发环境（Windows/IntelliJ）中从Ide运行spark作业，那么一切都会完美工作。然后（我一点也不喜欢java），我按照以下说明添
在Slurm群集上运行批处理作业

所以我现在花了几个小时试图解决这个问题，并希望得到任何帮助。
Spark在Yarn集群exitCode=13上运行：

我是一名spark/纱线新手，在提交纱线集群上的spark作业时遇到exitCode=13。当spark作业在本地模式下运行时，一切正常。我使用的命令是： Spark错误日志：
在集群石英中获取运行作业

当Quartz群集时，如何查明某个特定作业当前是否在Quartz中运行？ “获取正在运行的作业”问题的标准答案是使用，但是根据javadoc的说法，这在集群环境中不起作用。那有什么诀窍？

关于在集群(AWS)上运行spark作业的说明

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档