问题：

转换后保留Spark数据帧的分区数

苏高峰

2023-03-14

我正在查看代码中的一个错误，其中一个数据框被分成了太多的分区（超过700个），当我试图将它们重新分区为48个时，这会导致太多的洗牌操作。我不能在这里使用coalesce（），因为我想在重新分区之前首先拥有更少的分区。

我正在寻找减少分区数量的方法。假设我有一个 spark 数据帧（具有多个列），分为 10 个分区。我需要根据其中一列进行 orderBy 转换。完成此操作后，生成的数据帧是否具有相同数量的分区？如果没有，火花将如何决定分区的数量？

另外，除了像re分区（）这样的明显转换之外，还有哪些其他转换可能导致数据帧分区数的变化，我需要注意这些转换？

共有1个答案

蔚桐

2023-03-14

需要交换的操作的分区数由spark.sql.shuffle.partitions定义。如果需要特定值，则应在执行命令之前设置该值：

scala> val df = spark.range(0, 1000)
df: org.apache.spark.sql.Dataset[Long] = [id: bigint]

scala> spark.conf.set("spark.sql.shuffle.partitions", 1)

scala> df.orderBy("id").rdd.getNumPartitions
res1: Int = 1

scala> spark.conf.set("spark.sql.shuffle.partitions", 42)

scala> df.orderBy("id").rdd.getNumPartitions
res3: Int = 42

类似资料：

Spark数据帧的分区数

有人能解释一下将为Spark Dataframe创建的分区数量吗。我知道对于RDD，在创建它时，我们可以提到如下分区的数量。但是对于创建时的Spark数据帧，看起来我们没有像RDD那样指定分区数量的选项。我认为唯一的可能性是，在创建数据帧后，我们可以使用重新分区API。有人能告诉我在创建数据帧时，我们是否可以指定分区的数量。
Spark-SQl数据帧分区

我需要使用 spark-sql 加载一个 Hive 表，然后对其运行一些机器学习算法。我是这样写的：它工作得很好，但如果我想增加数据集数据帧的分区数，我该怎么做？使用普通RDD，我可以写：我想要有N个分区。谢谢
Spark DataFrame重新分区：未保留的分区数

根据Spark 1.6.3的文档，应该保留结果数据表中的分区数：返回由给定分区表达式分区的新DataFrame，保留现有的分区数 Edit：这个问题并不涉及在Apache Spark中删除空DataFrame分区的问题（例如，如何在不产生空分区的情况下沿列重新分区），而是为什么文档所说的内容与我在示例中观察到的内容不同
spark scala转换数据帧/rdd

我有一个如下的CSV文件。我想把这个转化成下面。基本上，我想在输出数据帧中创建一个名为idx的新列，该列将填充与键=idx，value=“n”后面的行相同的值“n”。
将rdd转换为数据帧时的Spark重新分区性能

我是scala/sark世界的新手，最近开始了一项任务，它读取一些数据，处理数据并将其保存在S3上。我阅读了一些关于stackoverflow的主题/问题，这些主题/问题涉及重分区/合并性能和最佳分区数（如本例）。假设我有正确的分区数，我的问题是，在将rdd转换为数据帧时，对它进行重新分区是个好主意吗？下面是我的代码目前的样子：这是我打算做的（过滤后重新分区数据）：我的问题是，这样做是个好主意
将Pandas数据帧转换为Spark数据帧错误

我正在尝试将熊猫DF转换为Spark one。测向头：代码：我得到了一个错误：

转换后保留Spark数据帧的分区数

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档