问题：

火花流和高可用性

单于亮

2023-03-14

我正在构建作用于多个流的Apache Spark应用程序。

我确实阅读了文档中的性能调优部分:http://spark.apache.org/docs/latest/streaming-programming-guide.html#performan-tuning

我没有得到的是：

1）流媒体接收器是位于多个工作节点上，还是位于驱动程序机器上？

2）如果接收数据的节点之一失败（断电/重新启动）会发生什么

共有1个答案

穆正祥

2023-03-14

流媒体接收器是位于多个工作节点上，还是驱动程序机器

接收者位于工作节点上，它们负责存储数据的源的消耗。

如果接收数据的节点之一失败（断电/重新启动）会发生什么

接收器位于工作节点上。工作节点从驱动程序获取它的任务。如果您在客户端模式下运行，该驱动程序可以位于专用主服务器上；如果您在集群模式下运行，它可以位于某个工作服务器上。如果一个节点失败而不运行驱动程序，驱动程序将把失败节点上的分区重新分配给另一个分区，这个分区将能够从源重新读取数据，并执行从故障中恢复所需的额外处理。

这就是为什么需要像Kafka或AWS Kinesis这样的可回放源码。

类似资料：

火花流作业不可恢复

我正在使用一个火花流作业，它使用带有初始RDD的mapAnd State。当重新启动应用程序并从检查点恢复时，它会失败，出错：此RDD缺少SparkContext。它可能发生在以下情况： RDD转换和操作不是由驱动程序调用的，而是在其他转换内部调用的；例如，rdd1.map（x= 中描述了此行为https://issues.apache.org/jira/browse/SPARK-13758但它
聚合火花流

我试图从聚合原理的角度来理解火花流。Spark DF 基于迷你批次，计算在特定时间窗口内出现的迷你批次上完成。假设我们有数据作为- 然后首先对Window_period_1进行计算，然后对Window_period_2进行计算。如果我需要将新的传入数据与历史数据一起使用，比如说Window_priod_new与Window_pperid_1和Window_perid_2的数据之间的分组函数，我该
使用Tweepy的火花流

我正在尝试使用python库Tweepy来传输twitter数据。我设置了工作环境，谷歌了一下这些东西，但是我不知道它们是如何工作的。我想在python (tweepy)中使用spark streaming(DStream-Batch processing)。我至少经历了以下环节: < li >如何获取tweepy中某个位置的特定标签的推文？ < Li > http://spark . Apach
火花流后立即使用火花RDD过滤器

我正在使用火花流，我从Kafka读取流。阅读此流后，我将其添加到hazelcast地图中。问题是，我需要在读取Kafka的流之后立即从地图中过滤值。我正在使用下面的代码来并行化地图值。但在这个逻辑中，我在另一个逻辑中使用JavaRDD，即JavaInputDStream.foreachRDD，这会导致序列化问题。第一个问题是，如何通过事件驱动来运行spark作业？另一方面，我只是想得到一
火花流口水-性能

我在Scala/Spark中有一个批处理作业，它根据一些输入动态创建Drools规则，然后评估规则。我还有一个与要插入到规则引擎的事实相对应的输入。到目前为止，我正在一个接一个地插入事实，然后触发关于这个事实的所有规则。我正在使用执行此操作。 seqOp运算符的定义如下：以下是生成的规则的示例：对于同一RDD，该批次花了20分钟来评估3K规则，但花了10小时来评估10K规则！我想知道根据事
火花流微配料

如果spark streaming在10秒的批处理间隔中获得50行消息，并且在40.5行消息之后，这10秒就结束了，剩下的时间落入另一个10秒的间隔中，前40.5行的文本是一个RDD被首先处理，在我的用例中，前40行是有意义的，但是下一个。5行没有意义，第二个RDD首先也是这样。5行，我的问题是否有效？。请提供建议如何处理这个问题？。谢谢比尔。

火花流和高可用性

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档