当前位置: 首页 > 知识库问答 >
问题:

带有火花流集成错误的kafka

周威
2023-03-14

我不能用火花流运行Kafka。以下是我迄今为止采取的步骤:

>

将此行添加到/home/ec2-user/spack-2.0.0-bin-hadoop2.7/conf/spark-defaults.conf.template-

Kafka版本:kafka_2.10-0.10.2.2

Jar文件版本:spark-streaming-kafka-0-8-assembly_2.10-2.2.0。罐子

Python代码:

os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.apache.spark:spark-streaming-kafka-0-8-assembly_2.10-2.2.0 pyspark-shell' 
kvs = KafkaUtils.createDirectStream(ssc, ["divolte-data"], {"metadata.broker.list": "localhost:9092"})

但我仍然得到以下错误:

Py4JJavaError: An error occurred while calling o39.createDirectStreamWithoutMessageHandler.
: java.lang.NoClassDefFoundError: Could not initialize class kafka.consumer.FetchRequestAndResponseStatsRegistry$
    at kafka.consumer.SimpleConsumer.<init>(SimpleConsumer.scala:39)
    at org.apache.spark.streaming.kafka.KafkaCluster.connect(KafkaCluster.scala:59)

我做错了什么?

共有1个答案

南宫俊喆
2023-03-14

spark默认值。conf.template只是一个模板,Spark无法读取,因此不会加载JAR。必须复制/重命名此文件才能删除模板后缀

如果您想使用这些特定的JAR文件,还需要下载Spark 2.2。

如果你想使用Scala 2.10Kafka软件包,请确保你的Spark版本使用Scala 2.10。否则,请使用2.11版本

 类似资料:
  • 我遵循火花流水槽集成的指导。但我最终无法获得任何事件。(https://spark.apache.org/docs/latest/streaming-flume-integration.html)谁能帮我分析一下?在烟雾中,我创建了“avro_flume.conf”的文件,如下所示: 在文件中,123.57.54.113是本地主机的ip。 最后,根本没有任何事件。 怎么了?谢谢!

  • 在调用参数化版本的CreateStream时,我也会遇到类似的错误。 你知道有什么问题吗?

  • 有人能帮我理解这个错误背后的原因吗: 群集配置为: 数据库运行时5.5 LTS Scala 2.11 Spark 2.4.3 驱动程序:64GB内存,16核,3DBU 工人:64GB mem,16核,3DBU(2-4个工人,自动扩展) fairscheduler中定义了3个并行运行的流式查询。xml Spark配置是: 在下面添加代码流: fairScheduler示例。xml文件:

  • 在配置spark应用程序时,我试图从集群中挤出每一点,但似乎我并没有完全正确地理解每一件事。因此,我正在AWS EMR集群上运行该应用程序,该集群具有1个主节点和2个m3类型的核心节点。xlarge(每个节点15G ram和4个vCPU)。这意味着,默认情况下,每个节点上为纱线调度的应用程序保留11.25 GB。因此,主节点仅由资源管理器(纱线)使用,这意味着剩余的2个核心节点将用于调度应用程序(

  • 每次使用cassandra connector在spark中运行scala程序时都会出现此错误 这是我的程序

  • 我在运行下面我写的SPARK代码时出错了。我试图根据键找到所有向量的总和。每个输入行以键(整数)开始,然后是127个浮点数,这是一个具有127个维度的单个向量,即每一行以键和向量开始。