当前位置: 首页 > 知识库问答 >
问题:

如何在星火SQL中合并地图列?

顾烨磊
2023-03-14

我在数据帧中有两个映射类型列。有没有一种方法可以通过使用.withColumn在spark Sql中合并这两个列来创建新的映射列?

val sampleDF = Seq(
 ("Jeff", Map("key1" -> "val1"), Map("key2" -> "val2"))
).toDF("name", "mapCol1", "mapCol2")

sampleDF.show()

+----+-----------------+-----------------+
|name|          mapCol1|          mapCol2|
+----+-----------------+-----------------+
|Jeff|Map(key1 -> val1)|Map(key2 -> val2)|
+----+-----------------+-----------------+

共有3个答案

陶淳
2023-03-14

您可以使用结构来实现此目的。

val sampleDF = Seq(
 ("Jeff", Map("key1" -> "val1"), Map("key2" -> "val2"))
).toDF("name", "mapCol1", "mapCol2")

sampleDF.show()

+----+-----------------+-----------------+
|name|          mapCol1|          mapCol2|
+----+-----------------+-----------------+
|Jeff|Map(key1 -> val1)|Map(key2 -> val2)|
+----+-----------------+-----------------+

sampleDF.withColumn("NewColumn",struct(sampleDF("mapCol1"), sampleDF("mapCol2"))).take(2)
    res17: Array[org.apache.spark.sql.Row] = Array([Jeff,Map(key1 -> val1),Map(key2 -> val2),[Map(key1 -> val1),Map(key2 -> val2)]])

+----+-----------------+-----------------+--------------------+
|name|          mapCol1|          mapCol2|           NewColumn|
+----+-----------------+-----------------+--------------------+
|Jeff|Map(key1 -> val1)|Map(key2 -> val2)|[Map(key1 -> val1...|
+----+-----------------+-----------------+--------------------+

参考:如何将Spark中的Dataframe的两列合并为一个2元组?

干亮
2023-03-14

您可以编写一个<code>udf

import org.apache.spark.sql.functions._
def mergeUdf = udf((map1: Map[String, String], map2: Map[String, String])=> map1 ++ map2)

sampleDF.withColumn("merged", mergeUdf(col("mapCol1"), col("mapCol2"))).show(false)

这应该给你

+----+-----------------+-----------------+-------------------------------+
|name|mapCol1          |mapCol2          |merged                         |
+----+-----------------+-----------------+-------------------------------+
|Jeff|Map(key1 -> val1)|Map(key2 -> val2)|Map(key1 -> val1, key2 -> val2)|
+----+-----------------+-----------------+-------------------------------+

我希望答案是有帮助的

秦胡媚
2023-03-14

仅当由于性能原因,您的用例没有内置函数时,才使用UDF。

import org.apache.spark.sql.functions.{map_concat, col}

sampleDF.withColumn("map_concat", map_concat(col("mapCol1"), col("mapCol2"))).show(false)

输出

+----+-----------------+-----------------+-------------------------------+
|name|mapCol1          |mapCol2          |map_concat                     |
+----+-----------------+-----------------+-------------------------------+
|Jeff|Map(key1 -> val1)|Map(key2 -> val2)|Map(key1 -> val1, key2 -> val2)|
+----+-----------------+-----------------+-------------------------------+

按照@RameshMaharjan在这个问题中的回答创建一个UDF,但我添加了一个空检查,以避免运行时的NPE,如果不添加,最终会导致作业失败。

import org.apache.spark.sql.functions.{udf, col}

val map_concat = udf((map1: Map[String, String],
                      map2: Map[String, String]) =>
  if (map1 == null) {
    map2
  } else if (map2 == null) {
    map1
  } else {
    map1 ++ map2
  })

sampleDF.withColumn("map_concat", map_concat(col("mapCol1"), col("mapCol2")))
 .show(false)
 类似资料:
  • 问题内容: 我有一个带有4列的(example-)数据框: 我现在想将B,C和D列合并/合并到新的E列,如本例所示: 我在这里发现了一个非常类似的问题,但这在A列的末尾添加了合并的列B,C和D: 感谢帮助。 问题答案: 选项1 使用和 选项2 使用分配和 选项3 最近,我喜欢第3个选项。 使用

  • 在,调用合并函数。 问题:如何获取导致复制的密钥? 在合并函数中,我想根据键来决定是否取消映射,或者继续并接受这些值。

  • 问题内容: 我想知道是否有人可以轻松地将2个深层嵌套的地图合并在一起? 例如,我想得到: 有没有一个简单的解决方案? 问题答案: 您可以编写一个使用递归的方法:

  • 问题内容: 我有地图清单的要求 现在我需要将其设置为flatMap,使其看起来像 在上面的示例中,输出为 目前,我有以下代码: 我们如何使用Java8和Lambda表达式编写这段代码? 问题答案: 我不会为此使用任何lambda,但是我已经使用了Java 8中引入的和方法参考。 您也可以使用s 执行此操作:

  • 我想按id分组。 结果应如下所示: 静态编程语言中最惯用的方法是什么?

  • 问题内容: 我有两个键为s且值为的映射。给定两个s,合并它们的最简单方法是什么,如果两个键相同,则值是两个集合的并集。您可以假设值永远不会为null,并且如果有用的话,我们可以将它们设为s。 问题答案: 我们在谈论实例。在这种情况下,查找值为O(1),因此您只需获取一个映射,然后对该映射的条目进行迭代,看看另一个映射是否包含该键。如果没有,只需添加设置。如果包含密钥,则将两个集合并集(通过将一个集