问题：

在Spark中独立爆炸多个列

双志强

2023-03-14

我有一个模式，其中每行包含多个数组列，我想独立于每个数组列爆炸。

假设我们有列：

**userId    someString      varA     varB       someBool
   1        "example1"    [0,2,5]   [1,2,9]        true
   2        "example2"    [1,20,5]  [9,null,6]     false

我想要一个输出：

userId    someString      varA     varB   someBool
   1      "example1"       0        null    true
   1      "example1"       2        null    true
   1      "example1"       5        null    true
   1      "example1"       1        null    true
   1      "example1"       20       null    true
   1      "example1"       5        null    true
   2      "example2"       null      1      false
   2      "example2"       null      2      false
   2      "example2"       null      9      false
   2      "example2"       null      9      false
   2      "example2"       null     null    false
   2      "example2"       null      6      false

想法？

（哦，我正在尝试这样做，所以我不必随着模式的变化而更新代码，也因为实际的模式有点大…）

PS -支持这个非常相似但不同的问题，我无耻地从这个问题中窃取了示例数据。

编辑：@oliik赢了，但是，如果能用＜code＞df来实现这一点，那也太棒了。flatMap（主要是因为我仍然不去摸索＜code＞flatMap

共有1个答案

东明德

2023-03-14

您可以始终以编程方式生成select

val df = Seq(
  (1, "example1", Seq(0,2,5), Seq(Some(1),Some(2),Some(9)), true),
  (2, "example2", Seq(1,20,5), Seq(Some(9),Option.empty[Int],Some(6)), false)
).toDF("userId", "someString", "varA", "varB", "someBool")

val arrayColumns = df.schema.fields.collect {
  case StructField(name, ArrayType(_, _), _, _) => name
}

val dfs = arrayColumns.map { expname =>
  val columns = df.schema.fields.map {
    case StructField(name, ArrayType(_, _), _, _) if expname == name => explode(df.col(name)) as name
    case StructField(name, ArrayType(_, _), _, _) => lit(null) as name
    case StructField(name, _, _, _) => df.col(name)
  }
  df.select(columns:_*)
}

dfs.reduce(_ union _).show()

+------+----------+----+----+--------+
|userId|someString|varA|varB|someBool|
+------+----------+----+----+--------+
|     1|  example1|   0|null|    true|
|     1|  example1|   2|null|    true|
|     1|  example1|   5|null|    true|
|     2|  example2|   1|null|   false|
|     2|  example2|  20|null|   false|
|     2|  example2|   5|null|   false|
|     1|  example1|null|   1|    true|
|     1|  example1|null|   2|    true|
|     1|  example1|null|   9|    true|
|     2|  example2|null|   9|   false|
|     2|  example2|null|null|   false|
|     2|  example2|null|   6|   false|
+------+----------+----+----+--------+

类似资料：

爆炸(移调？)Spark SQL表中的多个列

我正在使用Spark SQL（我提到它是在Spark中，以防影响SQL语法-我还不太熟悉，还不能确定），我有一个表，我正在尝试重新构造，但我在尝试同时转置多个列时遇到了麻烦。基本上，我有看起来像这样的数据：并且我想同时分解varA和varB（长度将始终保持一致） - 因此最终输出如下所示：但是我似乎只能让一个explee（var）语句在一个命令中工作，如果我尝试链接它们（即在第一个分解命令之
在PySpark中爆炸

问题内容：我想从包含单词列表的DataFrame转换为每个单词都在其自己行中的DataFrame。如何在DataFrame中的列上爆炸？这是我尝试的一些示例，您可以在其中取消注释每个代码行并获取以下注释中列出的错误。我在带有Spark 1.6.1的Python 2.7中使用PySpark。请指教问题答案：和是SQL函数。两者都在SQL上运行。将Java正则表达式作为第二个参数。如果要在
PHP多个分隔符爆炸

问题内容：我有一个问题，我有一个字符串数组，并且我想在其他定界符中爆炸。例如我需要一个在@或vs中爆炸的数组。我已经写了一个解决方案，但是如果每个人都有更好的解决方案，请在此处发布。问题答案：怎么用
Spark独立集群

工人出现在图片上。为了运行我的代码，我使用了以下命令：
独立运行Spark

安装Spark独立模式集群安装Spark独立模式，你只需要将Spark的编译版本简单的放到集群的每个节点。你可以获得每个稳定版本的预编译版本，也可以自己编译。手动启动集群你能够通过下面的方式启动独立的master服务器。 ./sbin/start-master.sh 一旦启动，master将会为自己打印出spark://HOST:PORT URL，你能够用它连接到workers或者作为"m
管理CSS爆炸

问题内容：我一直非常依赖CSS来开发我正在工作的网站。现在，所有CSS样式都在每个标记的基础上应用，因此现在我尝试将其移至更多外部样式中，以帮助将来进行任何更改。但是现在的问题是，我注意到我遇到了“ CSS爆炸”。对我来说，决定如何最好地组织和抽象CSS文件中的数据变得越来越困难。我正在从大量基于表格的网站中使用网站中的大量标签。因此，我得到了许多如下所示的CSS选择器：还算不错，但是作为

在Spark中独立爆炸多个列

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档