问题：

如何将数据帧列聚合到带有count的列表的新列中？

丌官皓君

2023-03-14

我在scala中有一个火花数据框，例如：

URL       Browser
A         Chrome
B         Chrome 
C         Firefox
A         Chrome
A         Firefox
A         Opera
A         Chrome
B         Chrome
B         Firefox
C         Tor

URL列的数据范围很广，但浏览器列的数据有限。我希望在URL列上进行聚合，并在一个列表中以降序获得每个浏览器的最高计数，如下所示:

URL      FrequentlyUsedBrowser 
A        [(Chrome,3),(Firefox,1),(Opera,1)]
B        [(Chrome,2),(Firefox,1)]
C        [(Chrome,1),(Tor,1)]

我一直在编写SQL，以使用窗口分区将计数作为每个浏览器的一个条目，但无法将其放入列表中。

这是一个运行Spark 2.4和Scala 2.11的google数据处理集群

共有2个答案

秦涵映

2023-03-14

我对@chlebek的答案进行了修改，添加了一个顺序，因此它现在非常适合我。该列表现在也已排序。谢谢！！

df.withColumn("num", lit(1))
 .groupBy('url, 'browser)
 .agg(sum('num)
 .as("num"))
 .orderBy('num.desc)
 .select('url, format_string("(%s)",concat_ws(",", 'browser, 'num))
 .as("dst"))
 .groupBy('url)
 .agg(collect_list('dst))
 .toDF("URL","FrequentlyUsedBrowser")
 .orderBy('url).show(false)

丰佐

2023-03-14

可以通过使用< code>collect_list和sort by sort_array来实现。

  df.withColumn("num", lit(1))
    .groupBy('url, 'browser)
    .agg(sum('num).as("num"))
    .select('url, format_string("(%s)",concat_ws(",", 'browser, 'num)).as("dst"))
    .groupBy('url)
    .agg(sort_array(collect_list('dst))).toDF("URL","FrequentlyUsedBrowser")
    .orderBy('url)
    .show(false)

+---+-------+
|url|browser|
+---+-------+
|  A| Chrome|
|  B| Chrome|
|  C|Firefox|
|  A| Chrome|
|  A|Firefox|
|  A|  Opera|
|  A| Chrome|
|  B| Chrome|
|  B|Firefox|
|  C|    Tor|
+---+-------+

+---+------------------------------------+
|URL|FrequentlyUsedBrowser               |
+---+------------------------------------+
|A  |[(Chrome,3), (Firefox,1), (Opera,1)]|
|B  |[(Chrome,2), (Firefox,1)]           |
|C  |[(Firefox,1), (Tor,1)]              |
+---+------------------------------------+

类似资料：

将数据帧中的值列表追加到新列[重复]

我试图做的是从列“in_reply_to_user_id”（不在图片中，因为df太宽，无法容纳）与给定id具有相同值的行中获取文本，并将文本附加到列表中，然后将其放入新列中。例如，所有tweet中的“in_reply_to_user_id”列等于第一条tweet的“id”的文本都应该放在一个列表中，然后添加到数据框中名为“reples”的新列中。以下是我尝试过的一些事情：
重命名 PySpark 数据帧聚合的列

我正在用PySpark DataFrames分析一些数据。假设我有一个正在聚合的数据帧< code>df: 这将给我: 聚合工作得很好，但我不喜欢新的列名。有没有办法将此列重命名为人类可以从方法中读取的内容？也许更类似于中的操作：
将函数应用于数据帧的列列表？

我从这个URL刮取了这个表： "https://www.patriotsoftware.com/blog/accounting/average-cost-living-by-state/" 看起来像这样：然后我编写了这个函数来帮助我将字符串转换成整数：当我只将函数应用于一列时，它就会工作。我在这里找到了关于在多个列上使用的答案：如何将函数应用于多个列但我下面的代码不起作用，也不会产生错误：
从列表到数据帧列[重复]

我有一份这种格式的清单我想用这些信息创建一个数据框架，其中一个列名为“情绪”，另一个列名为“分数” 数据帧：我不知道如何将我的列表转换为具有这种结构的数据格式
如何将空列添加到数据帧？

向pandas对象添加空列的最简单方法是什么？我偶然发现的最好的东西是有没有一种不那么反常的方法？
Java-将多个列表数据合并到单个单独的列列表中

我想知道是否有可能将不同流中的数据合并成一个流。通过合并，我的意思是将其添加到单独的列中，而不是添加到现有的列中。到目前为止，我已经能够将数据收集到单独的地图中，如下面的示例所示。我认为我应该把这些地图合并成一张，但不确定如何去做，或者我是否做错了什么。我做了一些搜索，在FlatMap、Concat等网站上找到了一些线索，但因为我对这条流还不熟悉例如：列出数据-1

如何将数据帧列聚合到带有count的列表的新列中？

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档