问题：

如何分区通过火花中的列并在将数据帧保存在火花scala之前删除相同的列

孔征

2023-03-14

假设我们有一个列为col1、col2、col3、col4的数据帧。现在，在保存df时，我想使用col2进行分区，并且我将保存的最终df不应该有col2。所以最终的df应该是col1、col3、col4。关于如何实现这一点，有什么建议吗？

newdf.drop("Status").write.mode("overwrite").partitionBy("Status").csv("C:/Users/Documents/Test")

共有1个答案

谢财

2023-03-14

< code>drop将删除状态栏

< code > org . Apache . spark . SQL . analysis exception:在模式中找不到分区列“status...]

检查下面的代码，它不会在您的数据中包含status值。

newdf
.write
.mode("overwrite")
.partitionBy("Status")
.csv("C:/Users/Documents/Test")

类似资料：

火花数据帧范围分区

[新加入Spark]语言-Scala 根据文档，RangePartitioner对元素进行排序并将其划分为块，然后将块分发到不同的机器。下面的例子说明了它是如何工作的。假设我们有一个数据框，有两列，一列（比如“a”）的连续值从1到1000。还有另一个数据帧具有相同的模式，但对应的列只有4个值30、250、500、900。（可以是任意值，从1到1000中随机选择）如果我使用RangePartit
如何映射在火花/scala中保存映射的数据集

我在spark中有一个数据集，只有一列，这列是一个Map[String，Any]。我想逐行映射数据集，然后逐键映射映射映射列，计算每个键的值，并使用新数据生成与前一个相同类型的新数据集。例如：我想在每个值的末尾加上“”，结果将是一个数据类型的数据集，如下所示：谢谢Nir
火花RDD中的分区数

我通过指定分区的数量从文本文件创建RDD（Spark 1.6）。但它给我的分区数与指定的分区数不同。案例1 案例2 案例3 案例4 文件/home/pvikash/data/test的内容。txt是：这是一个测试文件。将用于rdd分区基于以上案例，我有几个问题。对于案例2，显式指定的分区数为0，但实际分区数为1（即使默认最小分区为2），为什么实际分区数为1？对于案例3，为什么在指定数量的
如何通过索引从火花数据帧中删除列，其中列名可以重复？

我有一个火花数据帧，只想删除最后一列。我试过了但出现错误：“list”对象没有属性“last”。我还尝试了：但这会删除所有与last同名的列。使用Spark 2.4
如何融化火花数据帧？

在PySpark中或者至少在Scala中，Apache Spark中是否有与Pandas Melt函数等价的函数？到目前为止，我一直在用Python运行一个示例数据集，现在我想对整个数据集使用Spark。
使用scala的布尔运算在火花数据帧中折叠列

我们如何使用scala使用OR操作将布尔列折叠成一行？第1部分：期望输出我能想到的一个解决方案是按第一列条目对它们进行分组，filter true 这个解决方案相当混乱。此外，不知道这是否适用于所有边缘情况。有什么聪明的方法可以做到这一点吗？编辑：给定的答案适用于上述给定的场景，但不适用于此场景。有什么方法可以实现所需的输出？第2部分：期望输出我试图通过col1和col2分组，然后用

如何分区通过火花中的列并在将数据帧保存在火花scala之前删除相同的列

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档