我不能用火花流运行Kafka。以下是我迄今为止采取的步骤:
>
将此行添加到/home/ec2-user/spack-2.0.0-bin-hadoop2.7/conf/spark-defaults.conf.template
-
Kafka版本:kafka_2.10-0.10.2.2
Jar文件版本:spark-streaming-kafka-0-8-assembly_2.10-2.2.0。罐子
Python代码:
os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.apache.spark:spark-streaming-kafka-0-8-assembly_2.10-2.2.0 pyspark-shell'
kvs = KafkaUtils.createDirectStream(ssc, ["divolte-data"], {"metadata.broker.list": "localhost:9092"})
但我仍然得到以下错误:
Py4JJavaError: An error occurred while calling o39.createDirectStreamWithoutMessageHandler.
: java.lang.NoClassDefFoundError: Could not initialize class kafka.consumer.FetchRequestAndResponseStatsRegistry$
at kafka.consumer.SimpleConsumer.<init>(SimpleConsumer.scala:39)
at org.apache.spark.streaming.kafka.KafkaCluster.connect(KafkaCluster.scala:59)
我做错了什么?
spark默认值。conf.template
只是一个模板,Spark无法读取,因此不会加载JAR。必须复制/重命名此文件才能删除模板后缀
如果您想使用这些特定的JAR文件,还需要下载Spark 2.2。
如果你想使用Scala 2.10Kafka软件包,请确保你的Spark版本使用Scala 2.10。否则,请使用2.11版本
我遵循火花流水槽集成的指导。但我最终无法获得任何事件。(https://spark.apache.org/docs/latest/streaming-flume-integration.html)谁能帮我分析一下?在烟雾中,我创建了“avro_flume.conf”的文件,如下所示: 在文件中,123.57.54.113是本地主机的ip。 最后,根本没有任何事件。 怎么了?谢谢!
在调用参数化版本的CreateStream时,我也会遇到类似的错误。 你知道有什么问题吗?
有人能帮我理解这个错误背后的原因吗: 群集配置为: 数据库运行时5.5 LTS Scala 2.11 Spark 2.4.3 驱动程序:64GB内存,16核,3DBU 工人:64GB mem,16核,3DBU(2-4个工人,自动扩展) fairscheduler中定义了3个并行运行的流式查询。xml Spark配置是: 在下面添加代码流: fairScheduler示例。xml文件:
在配置spark应用程序时,我试图从集群中挤出每一点,但似乎我并没有完全正确地理解每一件事。因此,我正在AWS EMR集群上运行该应用程序,该集群具有1个主节点和2个m3类型的核心节点。xlarge(每个节点15G ram和4个vCPU)。这意味着,默认情况下,每个节点上为纱线调度的应用程序保留11.25 GB。因此,主节点仅由资源管理器(纱线)使用,这意味着剩余的2个核心节点将用于调度应用程序(
每次使用cassandra connector在spark中运行scala程序时都会出现此错误 这是我的程序
我在运行下面我写的SPARK代码时出错了。我试图根据键找到所有向量的总和。每个输入行以键(整数)开始,然后是127个浮点数,这是一个具有127个维度的单个向量,即每一行以键和向量开始。