我有一个在AWS EC2机器上运行的HortonWorks集群,我想在上面运行一个使用spark streaming的spark工作,该工作将吞下tweet concernings《权力的游戏》。在尝试在集群上运行它之前,我确实在本地运行了它。代码正在工作,如下所示:
import org.apache.spark.streaming.{StreamingContext, Seconds}
import org.apache.spark.streaming.twitter._
import org.apache.spark.{SparkConf, SparkContext}
object Twitter_Stream extends App {
val consumerKey = "hidden"
val consumerSecret = "hidden"
val accessToken = "hidden"
val accessTokenSecret = "hidden"
val sparkConf = new SparkConf().setAppName("GotTweets").setMaster("local[2]")
val ssc = new StreamingContext(sparkConf, Seconds(1))
val myStream = TwitterUtils.createStream(ssc, None, Array("#GoT","#WinterIsHere","#GameOfThrones"))
val rddTweets = myStream.foreachRDD(rdd =>
{
rdd.take(10).foreach(println)
})
ssc.start()
ssc.awaitTermination()
}
我的问题更确切地说是关于这段特定代码行:
val sparkConf = new SparkConf().setAppName("GotTweets").setMaster("local[2]")
17/07/24 11:53:42 INFO AppClient$ClientEndpoint:连接到主Spark://IP-Adress:7077...17/07/24 11:53:44警告AppClient$ClientEndpoint:未能连接到主IP-Adress:7077 java.io.ioException:未能连接到Spark://IP-Adress:7077 at org.apache.spark.network.client.transportClientFactory.createClient(TransportClientFactory.java:216)at org.apache.spark.network.client.transportClientFactory.createClient(TransportClientFactory.java:167)at.netty.outbox$$anon$1.在org.apache.spark.rpc.netty.outbox$$anon$1调用(Outbox.scala:187)在java.util.concurrent.futuretask.run调用(Outbox.scala:183)在java.util.concurrent.threadpoolexecutor.runworker(threadpoolexecutor.java:1142)在java.util.concurrent.threadpoolexecutor.worker.run
要使用yarn
运行spark应用程序,应该使用spark-submit
using--master yarn
。不需要在scala源代码中使用setmaster
。
我已经在我的Windows7机器上设置了一个本地spark集群(一个主节点和辅助节点)。我已经创建了一个简单的scala脚本,我用sbt构建了这个脚本,并尝试用Spark-Submit运行这个脚本。请参阅以下资源 Scala代码: 现在,我用sbt构建并打包scala代码,并将其打包到一个JAR中。我的build.sbt文件如下所示 它创建一个jar,我使用spark submit命令提交它,如下
在k8s集群中。如何配置zeppelin在现有spark集群中运行spark作业,而不是旋转一个新的Pod? 我有一个k8s集群正在运行,我想在其中运行与齐柏林飞艇的火花。 Spark使用官方的Bitnami/Spark helm chart(v3.0.0)进行部署。我有一个主舱和两个工人舱运转良好,一切都很好。 短伪DockerFile: 我稍微修改了。(Image,imagePullSecre
正如标题所预期的,我在向docker上运行的spark集群提交spark作业时遇到了一些问题。 我在scala中写了一个非常简单的火花作业,订阅一个kafka服务器,安排一些数据,并将这些数据存储在一个elastichsearch数据库中。 如果我在我的开发环境(Windows/IntelliJ)中从Ide运行spark作业,那么一切都会完美工作。 然后(我一点也不喜欢java),我按照以下说明添
所以我现在花了几个小时试图解决这个问题,并希望得到任何帮助。
我是一名spark/纱线新手,在提交纱线集群上的spark作业时遇到exitCode=13。当spark作业在本地模式下运行时,一切正常。 我使用的命令是: Spark错误日志:
当Quartz群集时,如何查明某个特定作业当前是否在Quartz中运行? “获取正在运行的作业”问题的标准答案是使用,但是根据javadoc的说法,这在集群环境中不起作用。 那有什么诀窍?