我正在通过以下命令运行脚本
spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.2.0 direct_kafka_wordcount.py localhost 9092
我无法连接我的Kafka主题和检索信息。我什么都试过了,但没有运气。我正在运行这个简单的代码的文字计数我的生活Kafka流。
错误的语法,尝试这样做(检查kafka broker主机部分):
spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.2.0
direct_kafka_wordcount.py localhost:9092
一般来说,连接到Kafka的引导服务器总是需要host:port
语法。
我试图运行火花作业,基本上加载数据在卡桑德拉表。但它也产生了以下错误。
我正在kerberized集群上运行Spark1.1.0、HDP2.1。我可以使用--master yarn-client成功地运行spark-submit,并且结果被正确地写入HDFS,但是,该工作没有显示在Hadoop All Applications页面上。我想使用--master yarn-cluster运行spark-submit,但仍然会出现以下错误: 我已经为我的帐户提供了对集群的访
我是Spark的新手。我有一个应用程序,通过调用spark shell来运行每个spark sql查询。因此,它将生成一组如下所示的查询,并调用spark shell命令逐个处理这些查询。 Val Query=spark.sql(""SELECT userid as userid,评级为评级,电影为电影从default.movie表""); 现在我想用spark submit而不是spark sh
下面是我遇到错误的程序: //导入扫描程序类导入java。util。扫描仪; 这些是我得到的错误:
我使用Python 3.7、JRE 8、JDK 1.8在Eclipse(Eclipse plugins:PyDev)上安装了带有Hadoop2.6的Pysark2.1。 在scala.collection.maplike$class.default(maplike.scala:228) 在scala.collection.abstractmap.default(map.scala:59) 在sca