问题：

如何在星火SQL中合并地图列？

顾烨磊

2023-03-14

我在数据帧中有两个映射类型列。有没有一种方法可以通过使用.withColumn在spark Sql中合并这两个列来创建新的映射列？

val sampleDF = Seq(
 ("Jeff", Map("key1" -> "val1"), Map("key2" -> "val2"))
).toDF("name", "mapCol1", "mapCol2")

sampleDF.show()

+----+-----------------+-----------------+
|name|          mapCol1|          mapCol2|
+----+-----------------+-----------------+
|Jeff|Map(key1 -> val1)|Map(key2 -> val2)|
+----+-----------------+-----------------+

共有3个答案

陶淳

2023-03-14

您可以使用结构来实现此目的。

val sampleDF = Seq(
 ("Jeff", Map("key1" -> "val1"), Map("key2" -> "val2"))
).toDF("name", "mapCol1", "mapCol2")

sampleDF.show()

+----+-----------------+-----------------+
|name|          mapCol1|          mapCol2|
+----+-----------------+-----------------+
|Jeff|Map(key1 -> val1)|Map(key2 -> val2)|
+----+-----------------+-----------------+

sampleDF.withColumn("NewColumn",struct(sampleDF("mapCol1"), sampleDF("mapCol2"))).take(2)
    res17: Array[org.apache.spark.sql.Row] = Array([Jeff,Map(key1 -> val1),Map(key2 -> val2),[Map(key1 -> val1),Map(key2 -> val2)]])

+----+-----------------+-----------------+--------------------+
|name|          mapCol1|          mapCol2|           NewColumn|
+----+-----------------+-----------------+--------------------+
|Jeff|Map(key1 -> val1)|Map(key2 -> val2)|[Map(key1 -> val1...|
+----+-----------------+-----------------+--------------------+

参考：如何将Spark中的Dataframe的两列合并为一个2元组？

干亮

2023-03-14

您可以编写一个＜code＞udf

import org.apache.spark.sql.functions._
def mergeUdf = udf((map1: Map[String, String], map2: Map[String, String])=> map1 ++ map2)

sampleDF.withColumn("merged", mergeUdf(col("mapCol1"), col("mapCol2"))).show(false)

这应该给你

+----+-----------------+-----------------+-------------------------------+
|name|mapCol1          |mapCol2          |merged                         |
+----+-----------------+-----------------+-------------------------------+
|Jeff|Map(key1 -> val1)|Map(key2 -> val2)|Map(key1 -> val1, key2 -> val2)|
+----+-----------------+-----------------+-------------------------------+

我希望答案是有帮助的

秦胡媚

2023-03-14

仅当由于性能原因，您的用例没有内置函数时，才使用UDF。

import org.apache.spark.sql.functions.{map_concat, col}

sampleDF.withColumn("map_concat", map_concat(col("mapCol1"), col("mapCol2"))).show(false)

输出

+----+-----------------+-----------------+-------------------------------+
|name|mapCol1          |mapCol2          |map_concat                     |
+----+-----------------+-----------------+-------------------------------+
|Jeff|Map(key1 -> val1)|Map(key2 -> val2)|Map(key1 -> val1, key2 -> val2)|
+----+-----------------+-----------------+-------------------------------+

按照@RameshMaharjan在这个问题中的回答创建一个UDF，但我添加了一个空检查，以避免运行时的NPE，如果不添加，最终会导致作业失败。

import org.apache.spark.sql.functions.{udf, col}

val map_concat = udf((map1: Map[String, String],
                      map2: Map[String, String]) =>
  if (map1 == null) {
    map2
  } else if (map2 == null) {
    map1
  } else {
    map1 ++ map2
  })

sampleDF.withColumn("map_concat", map_concat(col("mapCol1"), col("mapCol2")))
 .show(false)

类似资料：

如何在pandas中合并/合并列？

问题内容：我有一个带有4列的（example-）数据框：我现在想将B，C和D列合并/合并到新的E列，如本例所示：我在这里发现了一个非常类似的问题，但这在A列的末尾添加了合并的列B，C和D：感谢帮助。问题答案：选项1 使用和选项2 使用分配和选项3 最近，我喜欢第3个选项。使用
如何在Collectors.to地图合并功能中获取密钥？

在，调用合并函数。问题：如何获取导致复制的密钥？在合并函数中，我想根据键来决定是否取消映射，或者继续并接受这些值。
在Groovy中将地图与递归嵌套地图合并

问题内容：我想知道是否有人可以轻松地将2个深层嵌套的地图合并在一起？例如，我想得到：有没有一个简单的解决方案？问题答案：您可以编写一个使用递归的方法：
如何在Java 8中拼合地图列表

问题内容：我有地图清单的要求现在我需要将其设置为flatMap，使其看起来像在上面的示例中，输出为目前，我有以下代码：我们如何使用Java8和Lambda表达式编写这段代码？问题答案：我不会为此使用任何lambda，但是我已经使用了Java 8中引入的和方法参考。您也可以使用s 执行此操作：
Kotlin合并地图列表

我想按id分组。结果应如下所示：静态编程语言中最惯用的方法是什么？
合并两个地图

问题内容：我有两个键为s且值为的映射。给定两个s，合并它们的最简单方法是什么，如果两个键相同，则值是两个集合的并集。您可以假设值永远不会为null，并且如果有用的话，我们可以将它们设为s。问题答案：我们在谈论实例。在这种情况下，查找值为O（1），因此您只需获取一个映射，然后对该映射的条目进行迭代，看看另一个映射是否包含该键。如果没有，只需添加设置。如果包含密钥，则将两个集合并集（通过将一个集

如何在星火SQL中合并地图列？

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档