在Apache Spark中将Dataframe的列值提取为列表

龙永福

2023-03-14

共有1个答案

颛孙铭

2023-03-14

这将返回包含单个列表的集合：

dataFrame.select("YOUR_COLUMN_NAME").rdd.map(r => r(0)).collect()

没有映射，您只得到一个Row对象，它包含数据库中的每一列。

请记住，这可能会为您提供任何类型的列表。如果要指定结果类型，可以在r=>r(0).asinstanceof[YOUR_TYPE]映射中使用.asinstanceof[YOUR_TYPE]

类似资料：

将spark dataframe列中的值提取到新的派生列中

下面有以下dataframe架构
从spark dataframe中的列提取值，并将其提取到两个新列

但我如何也摆脱这些假想呢？
基于列值从Dataframe提取行

我将如何从从excel文件创建的Dataframe中提取列与特定值匹配的行？以下是Dataframe中的几行：这是我用来读取excel文件的代码，选择我需要的列并适当地重命名它们：到目前为止，根据诸如这个、这个或这里的答案，我只能返回第一个索引，其中Food=“Total fruit”。当我尝试上述其他方法时，我只得到列名，例如：我对熊猫不熟悉，看不出哪里出了问题。为什么我可以提取第一行食
将列值列表作为新列传递给spark dataframe

我正试图添加一个新列到spark dataframe中，如下所示：我试图将上面的列值列表作为新列传递给dataframe，并尝试对该新列执行sha2，并尝试执行varchar(64)。
将dataframe列中的列表拆分为多列[重复]

我有一个Pandas DataFrame列，其中包含一个列表中的多个列表。类似于这样：我想将列表拆分为多列，因此输出应该是这样的：请帮我做这件事。预先感谢
如何将带有值列表的列转换为Pandas DataFrame中的行

问题内容：嗨，我有一个这样的数据框：我想将其更改为：我怎样才能做到这一点？问题答案：您可以这样操作：