问题：

JSON对象列到多列的Pyspark拆分数组

东深

2023-03-14

我有一个pyspark dataframe，其中一列的格式如下：

[{key1:value1},{key2:value2},{key3:value3},{key4:value4}]

让我们把它说成下面的专栏：

我希望将其转换为dataframe的列，其中列名为keyX，其内容为valueX，其中x=[1,4]，如下所示：

我试过一些解决办法，但都不起作用。请求你分享任何想法或解决方案，如果你有。提前谢谢你。

共有1个答案

仲孙铭

2023-03-14

这是一个格式非常糟糕的JSON，没有任何引号，但您仍然可以通过强力解析它：

import pyspark.sql.functions as F

df2 = df.selectExpr("""
    explode(
        transform(
            split(ColumnY, ','), 
            x -> str_to_map(regexp_replace(x, '[\\\\[\\\\{ \\\\]\\\\}]', ''), ' ', ':')
        )
    ) as col
""").select(F.explode('col')).groupBy().pivot('key').agg(F.first('value'))

df2.show()
+------+------+------+------+
|  key1|  key2|  key3|  key4|
+------+------+------+------+
|value1|value2|value3|value4|
+------+------+------+------+

类似资料：

Pyspark：将多个数组列拆分为行

我有一个数据框架，它有一行和几列。有些列是单个值，有些是列表。所有列表列的长度相同。我想将每个列表列拆分为单独的行，同时保留任何非列表列。样本DF：我想要什么：如果我只有一个列表列，那么只需执行< code>explode就很容易了: 然而，如果我尝试分解＜code＞c＜/code＞列，我得到的数据帧长度为我想要的平方：我想要的是-对于每一列，取该列中数组的第n个元素，并将其添加到新行。我
拆分pyspark数据帧列并限制拆分

我有下面的spark数据框架。我必须将上面的数据帧列拆分为多个列，如下所示。我尝试使用分隔符进行拆分；和限制。但是它也将主题拆分为不同的列。姓名和年龄被组合在一起成一列。我要求所有主题在一列中，只有姓名和年龄在单独的列中。这在Pyspark有可能实现吗？
Pyspark 将数据帧字符串列拆分为多个列

我正在Spark 3.0.0上执行Spark结构流的示例，为此，我使用了twitter数据。我在Kafka中推送了twitter数据，单个记录如下所示 2020-07-21 10:48:19|1265200268284588034|RT@narendramodi：与@IBM首席执行官@ArvindKrishna先生进行了广泛的互动。我们讨论了几个与技术相关的主题，…|印度海得拉巴在这里，每个字段
如何在Pyspark中将列表拆分为多列？

我有: 我想要：似乎在scala中我可以写:< code>df.select($"value。_1 "，$ "值。_2 "，$ "值。_3")，但这在python中是不可能的。那么有没有好的办法呢？
pyspark将一列拆分为多个列而没有熊猫

我的问题是如何将一列拆分为多个列。我不知道为什么不起作用。例如，我想将“df_test”更改为“df_test2”。我看到了很多使用熊猫模块的例子。还有别的办法吗？提前感谢您。 df_test2
PySpark：如何将列拆分为3列[重复]

我有一个火花数据框如下，并希望分裂成3的空间列。下面是预期的结果。第一项留在text1列，第二项转到text2，其余的都转到text3(如果有)。原始列值可能包含空记录或带有任意数量分隔符的值，分隔符是空格。提前感谢！

JSON对象列到多列的Pyspark拆分数组

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档