问题：

火花流微配料

蒋华美

2023-03-14

如果spark streaming在10秒的批处理间隔中获得50行消息，并且在40.5行消息之后，这10秒就结束了，剩下的时间落入另一个10秒的间隔中，前40.5行的文本是一个RDD被首先处理，在我的用例中，前40行是有意义的，但是下一个。5行没有意义，第二个RDD首先也是这样。5行，我的问题是否有效？。请提供建议如何处理这个问题？。

谢谢比尔。

共有1个答案

鲍飞星

2023-03-14

这不可能发生。元素已经被接收并且是当前窗口的一部分，或者它还没有被接收并且将被包含在下一个窗口中。基于文件的源需要原子文件创建，所以只加载文件一部分的情况是不可能的。

类似资料：

聚合火花流

我试图从聚合原理的角度来理解火花流。Spark DF 基于迷你批次，计算在特定时间窗口内出现的迷你批次上完成。假设我们有数据作为- 然后首先对Window_period_1进行计算，然后对Window_period_2进行计算。如果我需要将新的传入数据与历史数据一起使用，比如说Window_priod_new与Window_pperid_1和Window_perid_2的数据之间的分组函数，我该
带纱线的火花流应用配置

在配置spark应用程序时，我试图从集群中挤出每一点，但似乎我并没有完全正确地理解每一件事。因此，我正在AWS EMR集群上运行该应用程序，该集群具有1个主节点和2个m3类型的核心节点。xlarge（每个节点15G ram和4个vCPU）。这意味着，默认情况下，每个节点上为纱线调度的应用程序保留11.25 GB。因此，主节点仅由资源管理器（纱线）使用，这意味着剩余的2个核心节点将用于调度应用程序（
火花流后立即使用火花RDD过滤器

我正在使用火花流，我从Kafka读取流。阅读此流后，我将其添加到hazelcast地图中。问题是，我需要在读取Kafka的流之后立即从地图中过滤值。我正在使用下面的代码来并行化地图值。但在这个逻辑中，我在另一个逻辑中使用JavaRDD，即JavaInputDStream.foreachRDD，这会导致序列化问题。第一个问题是，如何通过事件驱动来运行spark作业？另一方面，我只是想得到一
火花流口水-性能

我在Scala/Spark中有一个批处理作业，它根据一些输入动态创建Drools规则，然后评估规则。我还有一个与要插入到规则引擎的事实相对应的输入。到目前为止，我正在一个接一个地插入事实，然后触发关于这个事实的所有规则。我正在使用执行此操作。 seqOp运算符的定义如下：以下是生成的规则的示例：对于同一RDD，该批次花了20分钟来评估3K规则，但花了10小时来评估10K规则！我想知道根据事
持续火花流输出

我正在从一个消息应用程序收集数据，我目前正在使用Flume，它每天发送大约5000万条记录我希望使用Kafka，使用Spark Streaming从Kafka消费并将其持久化到hadoop并使用impala进行查询我尝试的每种方法都有问题。。方法1-将RDD另存为parquet，将外部配置单元parquet表指向parquet目录问题是finalParquet.saveAsParquetF
火花流集成水槽

我遵循火花流水槽集成的指导。但我最终无法获得任何事件。（https://spark.apache.org/docs/latest/streaming-flume-integration.html）谁能帮我分析一下？在烟雾中，我创建了“avro_flume.conf”的文件，如下所示：在文件中，123.57.54.113是本地主机的ip。最后，根本没有任何事件。怎么了？谢谢！

火花流微配料

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档