这将返回包含单个列表的集合:
dataFrame.select("YOUR_COLUMN_NAME").rdd.map(r => r(0)).collect()
没有映射,您只得到一个Row对象,它包含数据库中的每一列。
请记住,这可能会为您提供任何类型的列表。如果要指定结果类型,可以在r=>r(0).asinstanceof[YOUR_TYPE]
映射中使用.asinstanceof[YOUR_TYPE]
下面有以下dataframe架构
但我如何也摆脱这些假想呢?
我将如何从从excel文件创建的Dataframe中提取列与特定值匹配的行? 以下是Dataframe中的几行: 这是我用来读取excel文件的代码,选择我需要的列并适当地重命名它们: 到目前为止,根据诸如这个、这个或这里的答案,我只能返回第一个索引,其中Food=“Total fruit”。当我尝试上述其他方法时,我只得到列名,例如: 我对熊猫不熟悉,看不出哪里出了问题。为什么我可以提取第一行食
我正试图添加一个新列到spark dataframe中,如下所示: 我试图将上面的列值列表作为新列传递给dataframe,并尝试对该新列执行sha2,并尝试执行varchar(64)。
我有一个Pandas DataFrame列,其中包含一个列表中的多个列表。类似于这样: 我想将列表拆分为多列,因此输出应该是这样的: 请帮我做这件事。预先感谢
问题内容: 嗨,我有一个这样的数据框: 我想将其更改为: 我怎样才能做到这一点? 问题答案: 您可以这样操作: