我知道Spark Streaming会生成成批的RDD,但我想积累一个大数据帧,随着每批数据的更新而更新(通过在末尾添加新的数据帧)。
有没有办法像这样访问所有历史流数据?
我看过mapWithState(),但没有看到它专门积累数据帧。
虽然数据帧在后台以批量RDD的形式实现,但数据帧以非离散的无限行流的形式呈现给应用程序。没有“批量数据帧”,就像有“批量RDD”一样。
不清楚你想要什么历史数据。
我在使用foreachRDD进行CSV数据处理时遇到异常。这是我的代码 我得到以下错误。伊奥。NotSerializableException:已启用数据流检查点,但具有其功能的数据流不可序列化。阿帕奇。火花流动。StreamingContext序列化堆栈:-对象不可序列化(类:org.apache.spark.streaming.StreamingContext,值:org.apache.spa
1流媒体和Kafka broker版本0.8.2.1,我在AWS上为spark和Kafka提供了单独的服务器。 使用直接进近,我希望从流媒体中获得30个字符串,但实际接收范围只有15-25个。交叉检查Kafka消费者在300秒内显示30个字符串。还有小溪。foreachRDD{rdd= 获取最终数据背后有什么问题。我正在使用火花会话创建sc和ssc。 谢谢你。
问题内容: 我正在使用Maven 我添加了以下依赖项 我还在代码中添加了jar 它完全可以正常工作,没有任何错误,在通过spark-submit提交时出现以下错误,非常感谢您的帮助。谢谢你的时间。 线程“主要” java.lang.NoClassDefFoundError中的异常:sun.reflect处的KafkaSparkStreaming.sparkStreamingTest(KafkaSp
我正在读这篇博文: http://blog.jaceklaskowski.pl/2015/07/20/real-time-data-processing-using-apache-kafka-and-spark-streaming.html 它讨论了如何使用Spark Streaming和Apache Kafka进行一些近实时处理。我完全理解这篇文章。它确实展示了我如何使用Spark Stream
我的火花流应用程序从Kafka获取数据并对其进行处理。 如果应用程序失败,大量数据存储在Kafka中,并且在Spark Streaming应用程序的下一次启动时,它会崩溃,因为一次消耗了太多数据。由于我的应用程序不关心过去的数据,因此只消耗当前(最新)数据完全没关系。 我找到了“auto.reset.offest”选项,它在Spark中的行为几乎没有什么不同。如果配置了zookeeper,它会删除
我第一次使用pyspark。Spark版本:2.3.0Kafka版本:2.2.0 我有一个Kafka制作人,它以avro格式发送嵌套数据,我正试图在pyspark中编写spark流/结构化流的代码,它将来自Kafka的avro反序列化为数据帧,并进行转换,将其以拼花格式写入s3。我在spark/scala中找到了avro转换器,但pyspark中的支持尚未添加。如何在pyspark中转换相同的值。