我在数据帧中有两个映射类型列。有没有一种方法可以通过使用.withColumn在spark Sql中合并这两个列来创建新的映射列?
val sampleDF = Seq(
("Jeff", Map("key1" -> "val1"), Map("key2" -> "val2"))
).toDF("name", "mapCol1", "mapCol2")
sampleDF.show()
+----+-----------------+-----------------+
|name| mapCol1| mapCol2|
+----+-----------------+-----------------+
|Jeff|Map(key1 -> val1)|Map(key2 -> val2)|
+----+-----------------+-----------------+
您可以使用结构来实现此目的。
val sampleDF = Seq(
("Jeff", Map("key1" -> "val1"), Map("key2" -> "val2"))
).toDF("name", "mapCol1", "mapCol2")
sampleDF.show()
+----+-----------------+-----------------+
|name| mapCol1| mapCol2|
+----+-----------------+-----------------+
|Jeff|Map(key1 -> val1)|Map(key2 -> val2)|
+----+-----------------+-----------------+
sampleDF.withColumn("NewColumn",struct(sampleDF("mapCol1"), sampleDF("mapCol2"))).take(2)
res17: Array[org.apache.spark.sql.Row] = Array([Jeff,Map(key1 -> val1),Map(key2 -> val2),[Map(key1 -> val1),Map(key2 -> val2)]])
+----+-----------------+-----------------+--------------------+
|name| mapCol1| mapCol2| NewColumn|
+----+-----------------+-----------------+--------------------+
|Jeff|Map(key1 -> val1)|Map(key2 -> val2)|[Map(key1 -> val1...|
+----+-----------------+-----------------+--------------------+
参考:如何将Spark中的Dataframe的两列合并为一个2元组?
您可以编写一个<code>udf
import org.apache.spark.sql.functions._
def mergeUdf = udf((map1: Map[String, String], map2: Map[String, String])=> map1 ++ map2)
sampleDF.withColumn("merged", mergeUdf(col("mapCol1"), col("mapCol2"))).show(false)
这应该给你
+----+-----------------+-----------------+-------------------------------+
|name|mapCol1 |mapCol2 |merged |
+----+-----------------+-----------------+-------------------------------+
|Jeff|Map(key1 -> val1)|Map(key2 -> val2)|Map(key1 -> val1, key2 -> val2)|
+----+-----------------+-----------------+-------------------------------+
我希望答案是有帮助的
仅当由于性能原因,您的用例没有内置函数时,才使用UDF。
import org.apache.spark.sql.functions.{map_concat, col}
sampleDF.withColumn("map_concat", map_concat(col("mapCol1"), col("mapCol2"))).show(false)
输出
+----+-----------------+-----------------+-------------------------------+
|name|mapCol1 |mapCol2 |map_concat |
+----+-----------------+-----------------+-------------------------------+
|Jeff|Map(key1 -> val1)|Map(key2 -> val2)|Map(key1 -> val1, key2 -> val2)|
+----+-----------------+-----------------+-------------------------------+
按照@RameshMaharjan在这个问题中的回答创建一个UDF,但我添加了一个空检查,以避免运行时的NPE,如果不添加,最终会导致作业失败。
import org.apache.spark.sql.functions.{udf, col}
val map_concat = udf((map1: Map[String, String],
map2: Map[String, String]) =>
if (map1 == null) {
map2
} else if (map2 == null) {
map1
} else {
map1 ++ map2
})
sampleDF.withColumn("map_concat", map_concat(col("mapCol1"), col("mapCol2")))
.show(false)
问题内容: 我有一个带有4列的(example-)数据框: 我现在想将B,C和D列合并/合并到新的E列,如本例所示: 我在这里发现了一个非常类似的问题,但这在A列的末尾添加了合并的列B,C和D: 感谢帮助。 问题答案: 选项1 使用和 选项2 使用分配和 选项3 最近,我喜欢第3个选项。 使用
在,调用合并函数。 问题:如何获取导致复制的密钥? 在合并函数中,我想根据键来决定是否取消映射,或者继续并接受这些值。
问题内容: 我想知道是否有人可以轻松地将2个深层嵌套的地图合并在一起? 例如,我想得到: 有没有一个简单的解决方案? 问题答案: 您可以编写一个使用递归的方法:
问题内容: 我有地图清单的要求 现在我需要将其设置为flatMap,使其看起来像 在上面的示例中,输出为 目前,我有以下代码: 我们如何使用Java8和Lambda表达式编写这段代码? 问题答案: 我不会为此使用任何lambda,但是我已经使用了Java 8中引入的和方法参考。 您也可以使用s 执行此操作:
我想按id分组。 结果应如下所示: 静态编程语言中最惯用的方法是什么?
问题内容: 我有两个键为s且值为的映射。给定两个s,合并它们的最简单方法是什么,如果两个键相同,则值是两个集合的并集。您可以假设值永远不会为null,并且如果有用的话,我们可以将它们设为s。 问题答案: 我们在谈论实例。在这种情况下,查找值为O(1),因此您只需获取一个映射,然后对该映射的条目进行迭代,看看另一个映射是否包含该键。如果没有,只需添加设置。如果包含密钥,则将两个集合并集(通过将一个集