问题：

火花重新分区不均匀分布记录

巴星华

2023-03-14

   rdd = rdd.repartition( new Column("block_id"));

共有1个答案

高和通

2023-03-14

SparkDataSet使用哈希分区。不能保证不会有哈希colcs，所以您不能期望：

如果有20个不同的block_id，重新分区将产生20个新分区，每个分区持有不同的block_id

您可以尝试增加分区的数量，但是使用number提供了很好的保证是相当不切实际的。

类似资料：

分区分布不均匀

我们在AWS上运行16个节点kafka集群，每个节点是m4. xLargeEC2实例，具有2TB EBS（ST1）磁盘。Kafka版本0.10.1.0，目前我们有大约100个主题。一些繁忙的话题每天会有大约20亿个事件，一些低量的话题每天只有数千个。我们的大多数主题在生成消息时使用UUID作为分区键，因此分区分布相当均匀。我们有相当多的消费者使用消费群体从这个集群消费。每个使用者都有一个唯一的
均匀分布不给出均匀分布

0.1-0.2:********** 0.2-0.3:******** 0.3-0.4:********* 0.5-0.6:********* 0.6-0.7:********* 0.7-0.8:********* 0.4-0.5:********* 0.5-0.6:********* 0.6-0.7:********* 0.1-0.2:********* 0.2-0.3:********* 0.
火花：如何在所有分区中均匀分配我的记录

我有一个有 30 条记录的 RDD（键/值对：键是时间戳，值是 JPEG 字节数组），我正在运行 30 个执行器。我想将此 RDD 重新分区为 30 个分区，以便每个分区获得一条记录并分配给一个执行器。当我使用 30）时，它会在 30 个分区中重新分区我的 rdd，但有些分区得到 2 条记录，有些得到 1 条记录，有些没有得到任何记录。在Spark中，有没有什么方法可以将我的记录平均分配到
随机数，分布不均匀

问题内容：我试图识别/创建一个函数（在Java中），该函数给我一个非均匀的分布式数字序列。如果我有一个函数说它将给我一个从到的随机数。该函数最适合任何给定的函数，下面仅是我想要的示例。但是，如果我们说函数将返回来自分布式的s nonuni。我想例如说约占所有案件的20％。大约是所有情况的50％。约占所有案件的20％。大约是所有情况的10。总之somting，给我一个数字，如正态分
随机分布均匀

问题内容：我知道如果我使用Java的Random生成器，并使用nextInt生成数字，则数字将均匀分布。但是，如果我使用2个Random实例，并使用两个Random类生成数字，会发生什么。数字是否会均匀分布？问题答案：每个实例生成的数字将均匀分布，因此，如果将两个实例生成的随机数序列组合在一起，则它们也应均匀分布。请注意，即使结果分布是均匀的，您也可能要注意种子，以避免两个生成器的输出之间
Apache Kafka分区未使用RoundRobin分区器均匀分布

我正在使用Kafka Producer和RoundRobin分区器来处理一个有12个分区的主题。代码可在此处找到https://github.com/apache/kafka/blob/2.8/clients/src/main/java/org/apache/kafka/clients/producer/RoundRobinPartitioner.java 我面临的问题是，这个分区程序让分区正确

火花重新分区不均匀分布记录

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档