问题：

使用Spark DataFrame groupby时如何获取其他列？

朱季

2023-03-14

当我像这样使用DataFrame groupby时：

df.groupBy(df("age")).agg(Map("id"->"count"))

我只会得到一个列为“age”和“count（id）”的DataFrame，但在df中，还有许多其他列，如“name”。

总之，我想得到MySQL中的结果，

“按年龄从df组中选择姓名、年龄、计数（id）”

在Spark中使用groupby时该怎么办？

共有3个答案

鲜于峰

2023-03-14

也许这个解决方案会有帮助。

from pyspark.sql import SQLContext
from pyspark import SparkContext, SparkConf
from pyspark.sql import functions as F
from pyspark.sql import Window

    name_list = [(101, 'abc', 24), (102, 'cde', 24), (103, 'efg', 22), (104, 'ghi', 21),
                 (105, 'ijk', 20), (106, 'klm', 19), (107, 'mno', 18), (108, 'pqr', 18),
                 (109, 'rst', 26), (110, 'tuv', 27), (111, 'pqr', 18), (112, 'rst', 28), (113, 'tuv', 29)]

age_w = Window.partitionBy("age")
name_age_df = sqlContext.createDataFrame(name_list, ['id', 'name', 'age'])

name_age_count_df = name_age_df.withColumn("count", F.count("id").over(age_w)).orderBy("count")
name_age_count_df.show()

+---+----+---+-----+
| id|name|age|count|
+---+----+---+-----+
|109| rst| 26|    1|
|113| tuv| 29|    1|
|110| tuv| 27|    1|
|106| klm| 19|    1|
|103| efg| 22|    1|
|104| ghi| 21|    1|
|105| ijk| 20|    1|
|112| rst| 28|    1|
|101| abc| 24|    2|
|102| cde| 24|    2|
|107| mno| 18|    3|
|111| pqr| 18|    3|
|108| pqr| 18|    3|
+---+----+---+-----+

林和畅

2023-03-14

执行groupBy后获取所有列的一种方法是使用join函数。

feature_group = ['name', 'age']
data_counts = df.groupBy(feature_group).count().alias("counts")
data_joined = df.join(data_counts, feature_group)

data\u joined现在将包含所有列，包括计数值。

乐正翰

2023-03-14

长话短说，一般来说，您必须将聚合结果与原始表连接起来。SparkSQL遵循与大多数主要数据库（PostgreSQL、Oracle、MSSQLServer）相同的SQL： 1999约定，不允许在聚合查询中添加其他列。

由于对于像count这样的聚合，没有很好地定义结果，并且在支持这种类型查询的系统中，行为往往会有所不同，因此您可以使用任意聚合，如first或last，来包含额外的列。

在某些情况下，您可以使用窗口函数和后续的where替换agg，但这可能会非常昂贵，具体取决于上下文。

使用Spark DataFrame groupby时如何获取其他列？

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档