当前位置: 首页 > 知识库问答 >
问题:

Spark流与结构化流

田丰
2023-03-14

在过去的几个月里,我已经使用了相当多的结构化流来实现流作业(在大量使用Kafka之后)。在阅读了《Stream Processing with Apache Spark》一书之后,我有这样一个问题:有没有什么观点或用例可以让我使用Spark Streaming而不是Structured Streaming?如果我投入一些时间来研究它,或者由于im已经使用了Spark结构化流,我应该坚持使用它,而之前的API没有任何好处。如有任何意见/见解,我将不胜感激

共有1个答案

花高爽
2023-03-14

分享我的个人经历。

结构化流是基于spark的流实现的未来。它提供了更高层次的抽象和其他伟大的特性。然而,限制很少。

由于spark streaming提供的灵活性,我不得不在很少的情况下切换到spark streaming。最近的一个例子是,我们必须使用静态引用数据执行连接,但是结构化流不支持外部连接。这可以通过Spark Streaming来实现。

在较新的spark 2.4版本中,结构化流得到了很大的改进,它支持foreachBatch接收器,提供了spark流提供的类似灵活性。

我个人的想法是,了解spark streaming是有帮助的,您可能需要根据您的用例使用它。

 类似资料:
  • 我正在使用Kafka和Spark 2.1结构化流。我有两个json格式的数据主题,例如: 我需要比较Spark中基于标记的两个流:name,当值相等时,执行一些额外的定义/函数。 如何使用Spark结构化流来做到这一点? 谢谢

  • 场景与经典的流连接略有不同 交易流: transTS, userid, productid,... streamB:创建的新产品流:productid、productname、createTS等) 我想加入与产品的交易,但我找不到水印/加入条件的组合来实现这一点。 结果为空。 我做错了什么?

  • null 那么,和之间的最大区别是什么?

  • 我正在研究为Spark结构化流在kafka中存储kafka偏移量,就像它为DStreams工作一样,除了结构化流,我也在研究同样的情况。是否支持结构化流?如果是,我如何实现? 我知道使用进行hdfs检查点,但我对内置的偏移量管理感兴趣。 我期待Kafka存储偏移量只在内部没有火花hdfs检查点。

  • 我试图从[Database ricks][1]中复制示例并将其应用于Kafka的新连接器并引发结构化流,但是我无法使用Spark中的开箱即用方法正确解析JSON… 注:题目以JSON格式写入Kafka。 下面的代码不行,我相信那是因为列json是字符串,和方法from_json签名不匹配... 有什么建议吗? [更新]示例工作:https://github.com/katsou55/kafka-s

  • 我是Kafka流媒体的新手。我使用python设置了一个twitter监听器,它运行在localhost:9092kafka服务器中。我可以使用kafka客户端工具(conduktor)并使用命令“bin/kafka-console-consumer.sh--bootstrap-server localhost:9092-topic twitter--from-begind”来使用侦听器生成的流,