问题：

拆分pyspark数据帧列并限制拆分

公孙栋

2023-03-14

我有下面的spark数据框架。

Column_1
Physics=99;name=Xxxx;age=15
Physics=97;chemistry=85;name=yyyy;age=14
Physics=97;chemistry=85;maths=65;name=zzzz;age=14

我必须将上面的数据帧列拆分为多个列，如下所示。

column_1                         name   age
Physics=99                       Xxxx         15
Physics=97;chemistry=85          yyyy           14
Physics=97;chemistry=85;maths=65 zzzz      14

我尝试使用分隔符进行拆分；和限制。但是它也将主题拆分为不同的列。姓名和年龄被组合在一起成一列。我要求所有主题在一列中，只有姓名和年龄在单独的列中。

这在Pyspark有可能实现吗？

共有2个答案

张溪叠

2023-03-14

您可以这样做，使用正则表达式提取名称：

import pyspark.sql.functions as F
df = spark.createDataFrame([("Physics=99;name=Xxxx;age=15",), ("Physics=97;chemistry=85;name=yyyy;age=14",),("Physics=97;chemistry=85;maths=65;name=zzzz;age=14",)], ["Column1"])
new_df = df.withColumn("name", F.regexp_extract('Column1', r'name=(\w+)', 1).alias('name'))
new_df.show()

输出：

+--------------------+----+
|             Column1|name|
+--------------------+----+
|Physics=99;name=X...|Xxxx|
|Physics=97;chemis...|yyyy|
|Physics=97;chemis...|zzzz|
+--------------------+----+

华易安

2023-03-14

您可以使用替换技巧来拆分列。

df = spark.createDataFrame([('Physics=99;name=Xxxx;age=15'),('Physics=97;chemistry=85;name=yyyy;age=14'),('Physics=97;chemistry=85;maths=65;name=zzzz;age=14')], 'string').toDF('c1')

df.withColumn('c1', f.regexp_replace('c1', ';name', ',name')) \
  .withColumn('c1', f.regexp_replace('c1', ';age', ',age')) \
  .withColumn('c1', f.split('c1', ',')) \
  .select(
    f.col('c1')[0].alias('stat'),
    f.col('c1')[1].alias('name'),
    f.col('c1')[2].alias('age')) \
  .show(truncate=False)

+--------------------------------+---------+------+
|stat                            |name     |age   |
+--------------------------------+---------+------+
|Physics=99                      |name=Xxxx|age=15|
|Physics=97;chemistry=85         |name=yyyy|age=14|
|Physics=97;chemistry=85;maths=65|name=zzzz|age=14|
+--------------------------------+---------+------+

类似资料：

按列值拆分数据帧

我有列。如何根据值将其拆分为2？第一个将包含
Pyspark 将数据帧字符串列拆分为多个列

我正在Spark 3.0.0上执行Spark结构流的示例，为此，我使用了twitter数据。我在Kafka中推送了twitter数据，单个记录如下所示 2020-07-21 10:48:19|1265200268284588034|RT@narendramodi：与@IBM首席执行官@ArvindKrishna先生进行了广泛的互动。我们讨论了几个与技术相关的主题，…|印度海得拉巴在这里，每个字段
基于列值拆分/展开数据帧

我有一个像下面这样的DataFrame，标识符作为现有DateIndex顶部的列。我的目标是为除id之外的每一列（a和B）创建一个新的子DataFrames，其中dateIndex作为单个索引，id（foo,bar）作为列名。预期产出如下所示：
Spark数据帧-将结构列拆分为2列

我有一个包含（我认为是）对的数据帧。它看起来像这样： < code>Col2曾经包含一个< code>Map[String，String]，我在上面做了一个< code>toList()，然后做了< code>explode()以获得原始Map中每个映射的一行。我想将< code>Col2分成2列，并获得以下数据帧: 有谁知道如何做到这一点？或者，有人知道如何将一个映射分解成多行(每个映射一
将时间序列pySpark数据帧拆分为测试和训练，而无需使用随机拆分

问题内容：我有一个火花时间序列数据框。我想将其拆分为80-20（训练测试）。由于这是时间序列数据帧，因此我不想进行随机拆分。为了将第一个数据帧传递到训练中并传递第二个数据帧进行测试，我该如何做？问题答案：您可以用来获取按时间戳/日期列排序的DataFrame的百分位排名。然后选择所有列作为训练集，其余作为测试集。例如，如果您具有以下DataFrame：您需要训练集中的前4行和训练集中
Pyspark：将多个数组列拆分为行

我有一个数据框架，它有一行和几列。有些列是单个值，有些是列表。所有列表列的长度相同。我想将每个列表列拆分为单独的行，同时保留任何非列表列。样本DF：我想要什么：如果我只有一个列表列，那么只需执行< code>explode就很容易了: 然而，如果我尝试分解＜code＞c＜/code＞列，我得到的数据帧长度为我想要的平方：我想要的是-对于每一列，取该列中数组的第n个元素，并将其添加到新行。我

拆分pyspark数据帧列并限制拆分

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档