问题：

火花Kafka流媒体问题

蒋嘉颖

2023-03-14

   <dependency> <!-- Spark dependency -->
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-streaming_2.10</artifactId>
      <version>1.1.0</version>
    </dependency>   <dependency> <!-- Spark dependency -->
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-streaming-kafka_2.10</artifactId>
      <version>1.1.0</version>
    </dependency>

SparkConf sparkConf = new SparkConf().setAppName("KafkaSparkTest");
JavaSparkContext sc = new JavaSparkContext(sparkConf);
sc.addJar("/home/test/.m2/repository/org/apache/spark/spark-streaming-kafka_2.10/1.0.2/spark-streaming-kafka_2.10-1.0.2.jar");
JavaStreamingContext jssc = new JavaStreamingContext(sc, new Duration(5000));

它没有任何错误，我得到以下错误时，我运行火花提交，任何帮助都非常感谢。谢谢你抽出时间。

bin/spark-submit --class "KafkaSparkStreaming" --master local[4] try/simple-project/target/simple-project-1.0.jar

线程“main”java.lang.noClassDeffounderror：org/apache/spark/streaming/kafka/kafkautils在kafkasparkstreaming.sparkstreamingtest(kafkasparkstreaming.java:40)在kafkasparkstreaming.main(kafkasparkstreaming.java:23)在sun.reflect.nativeMethodAccessorimpl.invoke0（原生方法）在sun.reflect.nativeMethodAccessorimpl.invoke（Method.java:606)在org.apache.spark.deploy.sparksubmit$.launch（sparksubmit.scala:303)在org.apache.spark.deploy.sparksubmit$.main（sparksubmit.scala:55)在org.apache.spark.deploy.sparksubmit.main（sparksubmit.scala）由:java.lang.classNotfoundexception:org.apache.spark.deploy.sparksubmit.scala（

共有1个答案

东方镜

2023-03-14

我遇到了同样的问题，我通过构建具有依赖关系的jar来解决它。

删除代码中的“sc.addjar（）”。

将下面的代码添加到pom.xml中

<build>
    <sourceDirectory>src/main/java</sourceDirectory>
    <testSourceDirectory>src/test/java</testSourceDirectory>
    <plugins>
      <!--
                   Bind the maven-assembly-plugin to the package phase
        this will create a jar file without the storm dependencies
        suitable for deployment to a cluster.
       -->
      <plugin>
        <artifactId>maven-assembly-plugin</artifactId>
        <configuration>
          <descriptorRefs>
            <descriptorRef>jar-with-dependencies</descriptorRef>
          </descriptorRefs>
          <archive>
            <manifest>
              <mainClass></mainClass>
            </manifest>
          </archive>
        </configuration>
        <executions>
          <execution>
            <id>make-assembly</id>
            <phase>package</phase>
            <goals>
              <goal>single</goal>
            </goals>
          </execution>
        </executions>
      </plugin>
    </plugins>
</build>

类似资料：

火花流媒体Kafka vs Just Kafka

为什么以及何时会选择将Spark流媒体与Kafka结合使用？假设我有一个系统通过Kafka每秒接收数千条消息。我需要对这些消息应用一些实时分析，并将结果存储在数据库中。我有两个选择： > < li> 创建我自己的worker，该worker从Kafka读取消息，运行分析算法并将结果存储在DB中。在Docker时代，只需使用scale命令就可以轻松地在我的整个集群中扩展这个工作线程。我只需要确保
Spark Kafka流媒体问题

问题内容：我正在使用Maven 我添加了以下依赖项我还在代码中添加了jar 它完全可以正常工作，没有任何错误，在通过spark-submit提交时出现以下错误，非常感谢您的帮助。谢谢你的时间。线程“主要” java.lang.NoClassDefFoundError中的异常：sun.reflect处的KafkaSparkStreaming.sparkStreamingTest（KafkaSp
关于Flink与Kafka流媒体的问题

我有一个Java应用程序午餐一个flink工作来处理Kafka流。
Apache Kafka和Spark流媒体

我正在读这篇博文： http://blog.jaceklaskowski.pl/2015/07/20/real-time-data-processing-using-apache-kafka-and-spark-streaming.html 它讨论了如何使用Spark Streaming和Apache Kafka进行一些近实时处理。我完全理解这篇文章。它确实展示了我如何使用Spark Stream
火花流加入Kafka主题比较

我们需要在Kafka主题上实现连接，同时考虑延迟数据或“不在连接中”，这意味着流中延迟或不在连接中的数据不会被丢弃/丢失，但会被标记为超时，连接的结果被产生以输出Kafka主题（如果发生超时字段）。（独立部署中的火花2.1.1，Kafka 10） Kafka在主题：X，Y,...输出主题结果将如下所示：我发现三个解决方案写在这里，1和2从火花流官方留档，但与我们不相关（数据不在加入Dtsre
用于火花流的Kafka主题分区

我有一些关于Kafka主题分区->spark流媒体资源利用的用例，我想更清楚地说明这些用例。我使用spark独立模式，所以我只有“执行者总数”和“执行者内存”的设置。据我所知并根据文档，将并行性引入Spark streaming的方法是使用分区的Kafka主题->RDD将具有与Kafka相同数量的分区，当我使用spark-kafka直接流集成时。因此，如果我在主题中有一个分区和一个执行器核心，

火花Kafka流媒体问题

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档