当前位置：首页 > 面试题库 >

PySpark将类型为“映射”的列转换为数据框中的多个列

姬昊焱

2023-03-14

问题内容：

输入值

我有一列Parameters类型map的表格：

>>> from pyspark.sql import SQLContext
>>> sqlContext = SQLContext(sc)
>>> d = [{'Parameters': {'foo': '1', 'bar': '2', 'baz': 'aaa'}}]
>>> df = sqlContext.createDataFrame(d)
>>> df.collect()
[Row(Parameters={'foo': '1', 'bar': '2', 'baz': 'aaa'})]

输出量

我想在pyspark重塑它，这样所有的按键（foo，bar，等）都列，分别为：

[Row(foo='1', bar='2', baz='aaa')]

使用withColumn作品：

(df
 .withColumn('foo', df.Parameters['foo'])
 .withColumn('bar', df.Parameters['bar'])
 .withColumn('baz', df.Parameters['baz'])
 .drop('Parameters')
).collect()

但是 我需要一个解决方案， 因为我有很多 列名称，所以没有明确提及列名称 。

架构图

>>> df.printSchema()

root
 |-- Parameters: map (nullable = true)
 |    |-- key: string
 |    |-- value: string (valueContainsNull = true)

问题答案：

由于的键MapType不是架构的一部分，因此您必须首先收集这些键，例如：

from pyspark.sql.functions import explode

keys = (df
    .select(explode("Parameters"))
    .select("key")
    .distinct()
    .rdd.flatMap(lambda x: x)
    .collect())

当您拥有了这些之后，剩下的就是简单的选择：

from pyspark.sql.functions import col

exprs = [col("Parameters").getItem(k).alias(k) for k in keys]
df.select(*exprs)

类似资料：

mapstruct将列表转换为映射

我是Mapstruct的新手。我试图将列表转换为地图，我在网上搜索了很多，我有一些解决方案，比如它还没有在mapstruct中实现。如果有人能提供一些替代解决方案，我将很高兴。所有我希望转换映射如下：现在是否可以使用MapStruct来实现？
将函数映射到pyspark dataframe的多列

我有一个 pyspark df，它有很多列，但子集看起来像这样：我想映射一个函数some_func（），它只使用列“lat”、“lon”和“event_id”来返回一个布尔值，该值将作为名为“验证”的单独列添加到df中。基本上，我需要单独检索函数中感兴趣的列并对它们进行操作。我知道我可以使用UDF或df.withColumn（），但它们用于映射到单列。为此，我需要将感兴趣的列连接为一列，这会使代
在java中将映射转换为列表

我有一张这样的地图<代码>地图我使用了对象映射器，但它不工作，因为映射在我的结构中包含另一个映射。
如何将POJO转换为保留类型的映射？

我需要将POJO转换成地图。我尝试使用对象映射器，但是像timestamp这样的类型在最终的映射中要么以字符串的形式出现，要么以长的形式出现。有没有什么工具可以做一个简单的转换，使映射具有与POJO中完全相同的对象？（我知道我可以使用反射，但想看看是否有更简单的方法。）
将列表转换为Pandas数据框列

问题内容：我需要将列表转换为一列熊猫数据框当前列表（len = 3）：所需的熊猫DF（形状= 3，）：请注意，这些数字代表上述“必需熊猫” DF中的索引。问题答案：采用：谢谢DYZ：
Scala：将映射转换为case类

我需要在代码的几个地方将这个映射转换为我的case类，如下所示：最简单的方法是什么？我能用隐式吗？

相关阅读

将jsonb列值转换为PostgreSQL中的多个列在数据框中将Pandas系列转换为DateTime 将Drawable转换为BLOB数据类型快速将JSON列转换为Pandas数据框将索引转换为列熊猫数据框

相关文章

ECharts 数据的视觉映射 C++类型转换函数 Swift类型转换 JavaScript类型转换 Struts2 类型转换

相关问答

将多个键上的数据帧映射为列或多索引如何在pyspark数据帧中将字符串类型的列转换为int形式？将映射转换为POJO 类型列表不是类型转换中映射类型的子类型在Pyspark的FPGrowth中将RDD转换为数据帧

相关工具

汉字转换为拼音类似Twitter的登录框数据库处理框架录音并把caf转为mp3 Word转换器

相关文档

PySpark 中文教程蜻蜓映射帮助文档 KDB+ 高性能列式数据库中文教程设计数据密集型应用鲜活的数据数据可视化指南