问题：

如何在Spark流媒体中积累数据帧？

桑思远

2023-03-14

我知道Spark Streaming会生成成批的RDD，但我想积累一个大数据帧，随着每批数据的更新而更新（通过在末尾添加新的数据帧）。

有没有办法像这样访问所有历史流数据？

我看过mapWithState（），但没有看到它专门积累数据帧。

共有1个答案

祁星阑

2023-03-14

虽然数据帧在后台以批量RDD的形式实现，但数据帧以非离散的无限行流的形式呈现给应用程序。没有“批量数据帧”，就像有“批量RDD”一样。

不清楚你想要什么历史数据。

类似资料：

如何在传统Spark流媒体中使用foreachRDD

我在使用foreachRDD进行CSV数据处理时遇到异常。这是我的代码我得到以下错误。伊奥。NotSerializableException:已启用数据流检查点，但具有其功能的数据流不可序列化。阿帕奇。火花流动。StreamingContext序列化堆栈：-对象不可序列化（类：org.apache.spark.streaming.StreamingContext，值：org.apache.spa
数据丢失Spark 2.1-kafka broker 0.8.2.1流媒体

1流媒体和Kafka broker版本0.8.2.1，我在AWS上为spark和Kafka提供了单独的服务器。使用直接进近，我希望从流媒体中获得30个字符串，但实际接收范围只有15-25个。交叉检查Kafka消费者在300秒内显示30个字符串。还有小溪。foreachRDD{rdd= 获取最终数据背后有什么问题。我正在使用火花会话创建sc和ssc。谢谢你。
Spark Kafka流媒体问题

问题内容：我正在使用Maven 我添加了以下依赖项我还在代码中添加了jar 它完全可以正常工作，没有任何错误，在通过spark-submit提交时出现以下错误，非常感谢您的帮助。谢谢你的时间。线程“主要” java.lang.NoClassDefFoundError中的异常：sun.reflect处的KafkaSparkStreaming.sparkStreamingTest（KafkaSp
Apache Kafka和Spark流媒体

我正在读这篇博文： http://blog.jaceklaskowski.pl/2015/07/20/real-time-data-processing-using-apache-kafka-and-spark-streaming.html 它讨论了如何使用Spark Streaming和Apache Kafka进行一些近实时处理。我完全理解这篇文章。它确实展示了我如何使用Spark Stream
如何制作Spark流媒体（Spark 1.0.0）从Kafka（Kafka Broker 0.8.1）读取最新数据

我的火花流应用程序从Kafka获取数据并对其进行处理。如果应用程序失败，大量数据存储在Kafka中，并且在Spark Streaming应用程序的下一次启动时，它会崩溃，因为一次消耗了太多数据。由于我的应用程序不关心过去的数据，因此只消耗当前（最新）数据完全没关系。我找到了“auto.reset.offest”选项，它在Spark中的行为几乎没有什么不同。如果配置了zookeeper，它会删除
在spark流媒体/结构化流媒体中阅读来自Kafka的avro消息

我第一次使用pyspark。Spark版本：2.3.0Kafka版本：2.2.0 我有一个Kafka制作人，它以avro格式发送嵌套数据，我正试图在pyspark中编写spark流/结构化流的代码，它将来自Kafka的avro反序列化为数据帧，并进行转换，将其以拼花格式写入s3。我在spark/scala中找到了avro转换器，但pyspark中的支持尚未添加。如何在pyspark中转换相同的值。

如何在Spark流媒体中积累数据帧？

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档