问题：

spark结构流中如何保存被水印删除的记录

赵雅懿

2023-03-14

在Apache Spark结构化流中，水印可以自动删除旧的状态数据。在Structure-Streaming-Programming-Guide.md中，单词计数示例演示了水印如何轻松地删除系统中晚到的记录或事件。（https://github.com/apache/spark/blob/master/docs/structure-streaming-programming-guide.md）

带有水印的单词（“时间戳”、“10分钟”）

有没有办法将通过水印删除或丢弃的记录保存在磁盘或表中？

共有1个答案

郁烨

2023-03-14

是的，spark没有追踪这些记录的功能，但是flink有！

类似资料：

Spark流与结构化流

在过去的几个月里，我已经使用了相当多的结构化流来实现流作业（在大量使用Kafka之后）。在阅读了《Stream Processing with Apache Spark》一书之后，我有这样一个问题：有没有什么观点或用例可以让我使用Spark Streaming而不是Structured Streaming？如果我投入一些时间来研究它，或者由于im已经使用了Spark结构化流，我应该坚持使用它，而之
如何快速保存结构？

问题内容：通过从继承可以很容易地将Realm与类一起使用。但是我如何将包含几个字段的a保存到Swift中呢？例如我知道文档中明确支持的类型。但是也许有一个不错的解决方法，或者甚至更好-来自领域的人可以写有关结构的未来计划。问题答案：我建议您使用协议，以实现所需的功能。 1）创建您的结构 2）创建您的领域对象 3）使用协议将我们的结构转换为Realm对象 4）使您的结构持久有了这些工具，我
清除数据流中的Flink水印状态

是否可以清除数据流中的当前水印？一个月长的水印不允许延迟的示例输入：通常，“2018年9月”的记录会因为时间太晚而被扔掉。当看到消息时，是否有方法以编程方式重置水印状态？
结构化流媒体：水印与一次性语义

《编程指南》说，结构化流媒体保证使用适当的源/汇实现端到端的一次语义。然而，我不明白当工作崩溃，我们应用了水印时，这是如何工作的。下面是一个例子，我目前想象它是如何工作的，请纠正我对任何问题的误解。提前谢谢！例子： Spark Job：在每个1小时窗口中统计#个事件，带有1小时的水印。信息： A-时间戳上午10点 B-时间戳上午10:10 C-时间戳上午10:20 X-时间戳12pm Y-
如何删除表中重复的记录？

问题内容：嗨，在这里我遇到了一种情况，即由于错误地没有删除表，我已经运行了该表的批处理文件，该文件由一些详细的插入语句组成我有一个像alert_priority的表由类似现在错误地没有删除 alert_priority 我已经执行了表的脚本文件，其中包含一些插入语句，现在执行脚本后，我在表中的记录就像现在，我想删除多余的记录（Id 3之后的记录），并且在执行脚本文件之前，我应该拥有所有存在
如何删除/销毁Rails中的记录？

我正在构建一个基于railsguide的rails应用程序它在erb中调用的语法是... 控制器定义与在application.html.erb中使用“application”相关联的错误

spark结构流中如何保存被水印删除的记录

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档